﻿S Nikolenko, A Kadurin, E Arkhangelskaya S Nikolenko, A Kadurin, E Arkhangelskaya ÎNVĂȚAREA PROFUNDĂ PENTRU ÎN LUMEA REȚELELOR NEURALE [^PPTER Sankt Petersburg • Moscova • Ekaterinburg • Voronezh Nijni Novgorod • Rostov-pe-Don • Samara • Minsk BBK UDC H Nikolenko S , Kadurin A , Arkhangelskaya E H Învățare profundă - Sankt Petersburg: Peter, - p : ill - (Seria "Biblioteca programatorului") ISBN - - - - Iată prima carte despre învățarea profundă scrisă în limba rusă Modelele profunde s-au dovedit a fi cheia tuturor încuietorilor simultan: noi arhitecturi și algoritmi de învățare, precum și puterea de calcul crescută și seturi uriașe de date, au condus la descoperiri revoluționare în viziunea computerizată, recunoașterea vorbirii, procesarea limbajului natural și multe altele sarcini de obicei "umane" învăţare automată Aceste idei interesante, întreaga istorie și componentele principale ale revoluției învățării profunde, precum și cele mai recente evoluții în acest domeniu sunt prezentate într-un mod accesibil și interesant în carte Explicații maxime, cod minim, material serios despre învățarea automată și o prezentare fascinantă - în această lucrare unică a remarcabililor oameni de știință și intelectuali ruși + (În conformitate cu Legea federală din decembrie nr -FZ ) BBK UDC Toate drepturile rezervate Nicio parte a acestei cărți nu poate fi reprodusă sub nicio formă fără permisiunea scrisă a deținătorilor drepturilor de autor Informațiile conținute în această carte au fost obținute din surse considerate de către editor a fi de încredere Totuși, având în vedere eventualele erori umane sau tehnice, editorul nu poate garanta acuratețea și caracterul complet al informațiilor furnizate și nu este responsabil pentru eventualele erori asociate cu utilizarea cărții ISBN - - - - (c) Piter Publishing LLC, (c)Seria Programer's Library, Cuprins Partea I Cum să antrenezi rețelele neuronale Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc Revoluția învățării în rețea profundă Inteligența artificială și învățarea automată Un pic despre cuvinte: ce este învățarea automată Particularități ale creierului uman Limitele neuroștiinței: ce știm cu adevărat? Strălucirea și sărăcia rețelelor neuronale moderne capitolul Teorema lui Bayes Funcții de eroare și regularizare Distanța Kullback-Leibler și entropia încrucișată Noțiuni de bază pentru coborârea gradientului Graficul calculelor și diferențierea pe acesta Și despre practică: o introducere în TensorFlow și Keras capitolul Când au apărut rețelele neuronale artificiale Cum funcționează Perceptronul Perceptronii moderni: Funcţii de activare Cum învață neuronii adevărați? Rețele profunde: ce este frumusețea și care este complexitatea? Exemplu: recunoașterea cifrelor scrise de mână pe TensorFlow Partea a II-a Arhitecturi de bază capitolul Regularizarea în rețelele neuronale Cum să inițializați greutățile Normalizare prin Mini-Lot Metoda momentelor: Newton, Nesterov și Hesse Opțiuni adaptive pentru coborâre în gradient Capitolul Rețele neuronale convoluționale și codificatoare automate Cortexul vizual al creierului Convoluții și rețele convoluționale Convoluții pentru recunoașterea cifrelor Arhitecturi convoluţionale moderne Autoencodere Exemplu: Codificarea cifrelor scrise de mână Capitolul Rețele neuronale recurente, sau Cum să-ți muști propria coadă Motivaţie: Secvenţe de procesare Propagarea erorilor și arhitecturi RNN LSTM GRU și alte variante SCRN și alții: memorie lungă în RNN-uri convenționale Exemplu: generarea textului caracter cu caracter Partea a III-a Noi arhitecturi și aplicații Capitolul Procesare inteligentă a cuvintelor Reprezentări ale cuvintelor distribuite: word vec cuvânt vec în limba rusă în practică Mănușă: Așezarea corectă a matricei În sus și în jos din reprezentările cuvintelor Rețele neuronale recursive și parsing Capitolul Arhitecturile moderne sau Cum se naște adevărul într-o dispută Modele cu atenţie şi encoder-decoder Modele generative și învățare profundă Reţele adversare Exemplu practic și truc sigmoid logistic Arhitecturi bazate pe GAN Capitolul Învățare prin consolidare profundă, sau Incidentul uimitor al campionului Învățare prin întărire Procesele de decizie Markov De la TDGammon la DQN Biscuit de bambus Gradient peste strategii și alte aplicații Capitolul Metode neuro-bayesiene, sau Trecutul și viitorul învățării automate Teorema lui Bayes și rețelele neuronale Algoritmul EM Aproximaţii variaţionale Autoencoder variaţional Rețele neuronale bayesiene și abandon Concluzie: ce nu a fost inclus în carte și ce se va întâmpla în continuare Mulțumiri Literatură Partea I Cum să antrenezi rețelele neuronale Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc Primul capitol este introductiv În el noi: • aflați că recent a avut loc o revoluție în învățarea automată și că această revoluție este încă în desfășurare; • amintiți-vă de istoria inteligenței artificiale ca știință; • faceți cunoștință cu diferitele sarcini ale învățării automate, aflați cum sunt legate și cum diferă unele de altele; • afla de ce creierul uman poate servi drept model în crearea inteligenței artificiale; • ajunge la concluzia că neurobiologia nu este încă o știință foarte exactă; • Să încheiem cu o scurtă trecere în revistă a celor mai izbitoare exemple de aplicare a rețelelor neuronale moderne și a zonelor în care au încă multe de învățat Revoluția Deep Network Learning Revoluția Deep Network Learning - Cum au decurs lucrurile? mormăi el gânditor - La naiba! Revoluţie! A devenit vesel A înghițit aerul care mirosea a rouă și a mere și s-a gândit: "Un stâlp, pâine, o casă, secară, un spital, un bazar - toate cuvintele sunt cunoscute și apoi deodată - Revoluție! Bate, tobe! A Gaidar Bumbarash În primul rând, să ne întrebăm, punând mâna pe inimă: - Avem o revoluție acum? Este putrezirea, prostia, gunoaiele, funinginea și întunericul care se întâmplă acum - este cu adevărat o revoluție? Revoluția este un fulger sclipitor frumos, revoluția este un chip divin frumos, luminat de mânia Doom, revoluția este o rachetă orbitor de strălucitoare care a decolat ca un curcubeu în mijlocul întunericului umed! Face ce se întâmplă acum! arata ca aceste imagini stralucitoare? A Avercenko O duzină de cuțite în spatele revoluției În urmă cu un deceniu, la mijlocul anilor , a început o revoluție în învățarea automată În - , echipele de cercetare conduse de Geoffrey Hinton de la Universitatea din Toronto și Yoshua Bengio de la Universitatea din Montreal au învățat cum să antreneze rețele neuronale profunde Și a dat peste cap întreaga lume a învățării automate! Acum, într-o mare varietate de domenii, cele mai bune rezultate sunt obținute folosind rețele neuronale profunde Unul dintre primele succese industriale de mare profil a fost recunoașterea vorbirii: rețelele profunde dezvoltate de grupul Hinton au îmbunătățit foarte rapid rezultatele de recunoaștere în comparație cu abordările clasice perfecționate de-a lungul deceniilor, iar astăzi orice instrument de recunoaștere, inclusiv asistenți vocali precum Apple Siri și Google Now, funcționează exclusiv pe rețele neuronale profunde Și acum, până în , oamenii au învățat să antreneze o varietate de arhitecturi ale rețelelor neuronale profunde și rezolvă sarcini complet diferite: de la recunoașterea feței la conducerea mașinilor și la jocul go Dar ideile majorității acestor modele au apărut în anii - ai secolului XX, sau chiar mai devreme Rețelele neuronale artificiale au fost subiect de cercetare de foarte mult timp; în curând vom vedea că au fost una dintre primele idei bine formate ale inteligenței artificiale, când nimeni nu auzise încă astfel de cuvinte - "inteligență artificială" Dar de la începutul anilor ai secolului XX până la mijlocul anilor , rețelele neuronale au fost, ca să spunem ușor, demodate faimos Sperăm din tot sufletul că am scris o carte bună, dar totuși nu vom face rezerve speciale aici, mizând pe cititorii secolului al -lea Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc Cercetătorul de rețele neuronale John Denker a spus în : "Rețelele neuronale sunt a doua modalitate cea mai bună de a face aproape orice" Într-adevăr, la acea vreme se știa deja că o rețea neuronală poate aproxima teoretic orice funcție și poate învăța să rezolve orice problemă, iar o rețea neuronală profundă era capabilă să rezolve mult mai multe probleme diferite mai eficient Dar nimeni nu a fost capabil să se antreneze rețelele profunde, alte metode pe exemple practice specifice au funcționat mai bine Dintre metodele generale de învățare automată, acestea au fost mai întâi "metodele nucleului" (metodele nucleului), în special mașina vectorului suport, iar apoi rețelele bayesiene și, în general, modelele probabilistice grafice Dar, în general, Denker vorbea despre faptul că un model probabilistic mai simplu, conceput special pentru o anumită sarcină, de obicei a funcționat mai bine decât o rețea neuronală "de uz general", chiar dacă a fost ales pentru arhitectura care era adecvată pentru sarcină Și rețelele neuronale profunde nu au vrut să învețe; de ce, vom discuta în detaliu în secțiunea Soluția propusă de grupul lui Hinton la mijlocul anilor a venit sub forma unui pre-training nesupravegheat, în care rețeaua este mai întâi antrenată pe un set mare de date neetichetate și apoi reantrenată pe date etichetate folosind această aproximare De exemplu, dacă vrem să recunoaștem fețele umane, atunci să antrenăm mai întâi rețeaua neuronală pe fotografii cu oameni în general, fără marcaj (puteți colecta cu ușurință câte fotografii doriți) și abia apoi, când rețeaua are " văzut suficient" de fotografii nemarcate, îl vom antrena pe setul de date etichetat S-a dovedit că, în acest caz, rezultatul final devine mult mai bun, iar rețeaua începe să evidențieze caracteristici bune și interesante chiar și în stadiul de pre-formare fără profesor În acest fel, în special, a avut loc o descoperire în recunoașterea vorbirii Desigur, aici este încă complet neclar ce ar trebui să facă de fapt rețeaua cu aceste fotografii neetichetate, iar aceasta a fost descoperirea de la mijlocul anilor Vom vorbi puțin despre aceste metode în Secțiunea , dar fără a intra în detaliu, deoarece aceste metode sunt cu greu folosite astăzi De ce? Pentru că totul funcționează bine fără ele! S-a dovedit că acum putem antrena cu succes rețelele neuronale, inclusiv cele profunde, de fapt, folosind aceleași metode care nu se puteau face înainte Metodele de preînvățare nesupravegheate au fost doar declanșatorul revoluției învățării profunde Al doilea cel mai important motiv a fost, de fapt, progresul în tehnologia de calcul și în dimensiunea seturilor de date disponibile pentru instruire Odată cu dezvoltarea internetului, datele au devenit din ce în ce mai multe: de exemplu, setul de date clasic MNIST, despre care îl vom discuta în detaliu în secțiunea și pe care modelele de computer vision au fost testate timp de un deceniu bun, este de de mii de imagini scrise de mână x de cifre de pixeli, în total aproximativ MB de date; iar setul de date standard modern ImageNet pentru modelele de viziune computerizată conține deja aproximativ , TB de imagini În parte Revoluția Deep Network Learning Legea lui Moore și inovațiile importante ajută la antrenarea mai rapidă a rețelelor neuronale Întregul capitol va fi dedicat unor astfel de inovații Practic, desigur, vom vorbi despre progrese în algoritmii de învățare în sine, dar vor exista de fapt progrese pur "de fier": antrenamentul rețelelor neuronale moderne are loc de obicei pe procesoare grafice (GPU-uri, adică, de fapt, pe plăci video) ), care vă permite adesea să accelerați procesul de zeci de ori Această idee a apărut în jurul anului și a devenit o parte importantă a revoluției învățării profunde Dar, desigur, conținutul revoluției rețelei profunde nu se limitează la computere mai rapide și mai multe date Dacă ar fi așa, ar fi posibil să nu scriem nicio carte, ci să închei conversația chiar acum Dezvoltarea tehnică a făcut posibil nu numai revenirea la ideile anilor - ai secolului XX, ci și venirea cu multe idei noi Au fost dezvoltate ambele metode generale de antrenament a rețelelor neuronale (vom vorbi despre ele în capitolul și în general în prima parte a cărții), iar arhitecturile clasice ale rețelelor neuronale, care sunt dedicate în principal celei de-a doua părți, sunt rețele convoluționale și autoencodere (Capitolul ), rețelele recurente (Capitolul ) Dar au apărut și arhitecturi complet noi: rețelele adverse generative (Capitolul ) au fost capabile să transforme rețelele neuronale în modele generative, rețelele neuronale în învățarea prin consolidare (Capitolul ) au condus la descoperiri fără precedent, metodele neuro-bayesiene (Capitolul ) rețelele neuronale conectate și inferența probabilistică clasică folosind aproximări variaționale, iar nevoile aplicațiilor specifice au condus la dezvoltarea de noi arhitecturi precum rețelele cu atenție (Secțiunea ) și rețelele cu memorie, care au deja alte aplicații Înainte de a trece mai departe, să spunem câteva cuvinte despre principalele surse Nu există încă prea multe cărți despre formarea rețelelor profunde Unii cred că această zonă nu este încă pe deplin stabilită și nu este încă necesară sistematizarea acesteia După cum probabil ați ghicit, nu suntem deloc de acord cu acest lucru De fapt, acum există doar două cărți binecunoscute despre învățarea rețelelor profunde: în , a fost publicată o carte a angajaților Microsoft Research Li Deng (Li Deng) și Dong Yu (Yu Dong) Deep Learning: Methods and Applications [ ] , care se concentrează pe aplicații pentru procesarea semnalului, adică pentru analiza imaginilor și a vorbirii Mai recent, la sfârșitul anului , a fost publicată cartea lui Ian Goodfellow, Yoshua Benji și Aaron Courville Deep Learning [ ], care oferă o introducere detaliată și ideologică a subiectului Deși această carte este, din punct de vedere tehnic, concurentul nostru direct, o recomandăm cu tărie; Apropo, traducere în limba rusă Gordon Moore și-a formulat legea potrivit căreia numărul de tranzistori dintr-un circuit integrat se dublează aproximativ la fiecare doi ani, iar performanța generală a sistemelor aproximativ la fiecare luni, încă din (mai precis, atunci a prezis o dublare în fiecare an, iar în ) a devenit mai pesimist) Desigur, aceasta nu este o lege a naturii, ci doar un model empiric, dar este uimitor cât de mult timp este valabilă această relație exponențială: legea lui Moore în timpul nostru ( - ) a încetinit doar puțin, de la doi ani la doi și jumatate Adevărat, acum vorbim nu numai despre numărul de tranzistori dintr-un circuit, ci și despre numărul de nuclee din procesor Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc de asemenea, există deja În plus, există o serie de recenzii mari importante care nu ajung la statutul de cărți, dar oferă o viziune foarte largă asupra învățării profunde: o recenzie timpurie a lui Benji [ ] arată starea de fapt în , recenzia sa mai recentă consideră învățarea profundă ca învățarea reprezentării (învățarea reprezentării) [ ], recenzia lui Li Deng este axată pe procesarea semnalului [ ], iar recenzia lui Jurgen Schmidhuber [ ] oferă o analiză foarte detaliată a istoriei ideilor principale ale invatare profunda Există, desigur, recenzii mai specializate pentru domenii specifice: procesarea imaginilor [ ], procesarea limbajului natural [ ] și multe altele Dintre lucrările care vorbesc despre învățarea rețelelor profunde "în general", se poate evidenția un articol cheie din Nature, scris de trei exponenți principali ai învățării profunde: Geoffrey Hinton, Yoshua Benji și Yann LeCun [ ] Ne vom referi la surse mai specializate pe parcursul acestei cărți: domeniul este tânăr, se dezvoltă foarte repede, iar în lista de referințe, în care am încercat să includem doar articole cu adevărat importante, există deja destul de multe surse Apropo, cel mai bine este să urmăriți cele mai recente știri despre învățarea profundă pe arXiv^: noi lucrări despre antrenarea rețelelor profunde apar acolo tot timpul și, dacă nu ați vizitat arXiv de două sau trei luni, se poate dovedi că alte mini - revoluție și nu ai observat În această carte, vom vorbi despre diferite arhitecturi ale rețelelor neuronale, vom analiza exact cum să antrenăm rețelele neuronale, ce sarcini pot rezolva Mai mult, vom ajunge să exersăm: aproape fiecare dintre poveștile noastre va fi însoțită de exemple de cod destul de funcționale folosind biblioteci moderne pentru antrenarea rețelelor neuronale, în principal TensorFlow și Keras Bibliotecile ca acestea au pus la dispoziția publicului rețelele neuronale de învățare și au fost o componentă importantă a exploziei de interes și a creșterii rapide în domeniul nostru Așteptăm o mulțime de lucruri interesante Și în acest capitol introductiv, vom începe prin a vorbi despre ce este inteligența artificială și învățarea automată în general, cum au apărut, cum s-au dezvoltat și cum sunt legate rețelele neuronale artificiale pe care le considerăm în această carte cu cele naturale, cu care sunteți citind această carte Depozitul arXiv de preprinturi științifice, situat la http://arxiv org, conține articole din multe discipline științifice Dar în unele zone, arXiv a devenit standardul de facto în care sunt postate aproape toate articolele serioase, de obicei chiar înainte de publicarea oficială Aceste domenii includ învățarea automată, în special formarea rețelelor profunde Adevărat, este de remarcat faptul că nu există nicio evaluare peer review pe arXiv, așa că articolele foarte recente pot conține și erori, uneori importante De exemplu, în , soluția lui Vinai Deodalikar la problema P =/ NP, publicată pe arXiv, a făcut mult zgomot Din păcate, alarma s-a dovedit a fi falsă, iar în soluție s-au găsit erori Și în , a apărut soluția lui Norbert Blum, iar când scriem aceste cuvinte, soluția nu a fost încă infirmată - totuși, sunt puține șanse: Alexander Razborov a indicat deja motivele pentru care această dovadă nu ar trebui să funcționeze Și recentul inițiativa https:/ /openreview net/ face lucruri complet de neconceput pentru "știința clasică": articole care tocmai au fost depuse la conferință și recenzii ale acestora sunt publicate acolo Inteligența artificială și învățarea automată unsprezece Inteligența artificială și învățarea automată La ce s-a ajuns la progres - munca fizică a dispărut, Da, iar mentalul va înlocui procesul mecanic Necazurile sunt uitate, alergarea este oprită, roboții muncesc din greu, nu un bărbat Y Entin Din filmul "Aventurile electronicelor" Ideea de inteligență artificială a ocupat multă vreme oamenii Hephaestus a creat roboți android, atât pentru el ca asistenți, cât și la comandă; de exemplu, robotul umanoid uriaș Talos construit de Hephaestus a fost mai târziu prezentat de Zeus regelui Minos pentru a păzi Creta Deja în miturile grecești, inteligența artificială putea rezolva probleme care suna destul de moderne: Taloe a înconjurat întreaga insulă de trei ori pe zi, a recunoscut automat nave neprietenoase printre navele care soseau și a aruncat cu pietre uriașe în ele Cam în aceeași perioadă, Afrodita a reînviat Galatea, creată de Pygmalion din marmură, și chiar mai devreme, Iehova și Allah au dat viață, conștiință de sine și o cantitate suficientă de abilități cognitive în bucăți de lut În tradiția evreiască, apropo, în special rabinii înțelepți puteau crea ei înșiși golemi - uriași care trebuiau mai întâi construiți sub forma unei statui de lut și sânge, apoi reînviați cu un artefact sau vrajă potrivită Golemii puteau urma comenzile creatorului lor, adică erau capabili să recunoască vorbirea și să proceseze limbajul natural Dar nu a fost posibil să sintetizezi vorbirea: dacă golemul ar putea vorbi singur, asta ar însemna că are un suflet și nici cel mai înțelept rabin nu poate pune un suflet în ea - aceasta este prerogativa Domnului Prin urmare, când celebrul alchimist Albert cel Mare și-a făcut un cap artificial vorbitor, el l-a supărat foarte mult pe profesorul său Toma de Aquino, care, se pare, a fost de acord cu sursele evreiești în această problemă Inteligența artificială s-a aplicat de mult timp la jocuri: mașina de șah turc l-a învins chiar pe Napoleon I însuși; totuși, aici a devenit rapid clar că inteligența artificială nu este atât de artificială Și în timpul nostru iluminat, a devenit un subiect literar important aproape simultan cu apariția science-fiction-ului ca atare: începând cu Dr Frankenstein, ideea de Crearea anumitor ființe gânditoare în literatură apare constant Se crede că inteligența artificială ca știință a început cu testul Turing Formularea de testare a apărut pentru prima dată în celebrul articol Computing Machinery În zilele noastre, serviciul Amazon Mechanical Turk poartă numele celebrei mașini, pe care oameni reali îndeplinesc sarcini mici și ieftine Adesea, turkerii fac doar etichetarea seturilor de date pentru modele, despre care vom vorbi în această carte Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc andIntelligence, publicată de Alan Turing în [ ] Cu toate acestea, merită remarcat faptul că posibilitatea de a crea "mașini care gândesc" și prezența inteligenței în computere a fost discutată de însuși Turing și de colegii săi până la acel moment timp de cel puțin zece ani; a fost un subiect frecvent de discuție în Clubul Ratio Englez, căruia îi aparținea și Alan Probabil că mulți cititori au auzit premisa de bază a testului Turing: pentru a trece testul, computerul trebuie să se umble cu succes la un om într-un dialog scris între judecător, om și computer Cu alte cuvinte, nu este nevoie să construim androizi umanoizi, dar computerul ar trebui să devină imposibil de distins de o persoană care deține un limbaj natural În mod curios, formularea originală a testului Turing a fost oarecum mai subtilă și mai interesantă Într-adevăr, este clar că acest test este conceput pentru a fi extrem de nedrept pentru programele de calculator nefericite Dacă vă imaginați un "test Turing invers" în care o persoană ar încerca să uzurpare identitatea unui computer, i s-ar deschide instantaneu o întrebare de genul "Cât costă / ?" Turing a înțeles că, în schema pe care a propus-o, era suficient ca o persoană să fie pur și simplu el însuși și ca un computer să se umble pe altcineva Prin urmare, formularea inițială se baza pe un joc de simulare popular de atunci în care un bărbat și o femeie comunică în scris cu un judecător Sarcina unui bărbat este să se uite la o femeie, sarcina unei femei este să ajute judecătorul să-și dea seama corect cine este cine Turing a sugerat să compare rezultatele computerului și ale bărbaților vii în acest joc: atunci ambele părți vor fi forțate să imite pe altcineva Turing însuși credea că până în anul , computerele cu un gigaoctet de memorie vor putea juca un joc de imitație în așa fel încât să convingă o persoană în % din timp ( % ar fi cel mai bun rezultat, adică în mod ideal , deciziile judecătorului ar fi imposibil de distins de o aruncare corectă a monedelor) Testul Turing ajută la înțelegerea cât de mult trebuie făcut pentru a putea proiecta inteligența artificială: aici este procesarea limbajului natural și reprezentarea cunoștințelor și capacitatea de a trage concluzii din cunoștințele acumulate, inclusiv învățarea din experiență Cu toate acestea, testul Turing nu este acum considerat practic un test adevărat pentru a stabili dacă mașinile gândesc Formularea literală a testului a dat naștere în vremea noastră unei destul de cunoscute, dar de fapt Alan Turing ( - ) a fost un matematician și informatician englez Turing a fost unul dintre creatorii informaticii teoretice moderne și a teoriei computabilității: a dezvoltat designul mașinii Turing și a dovedit primele rezultate privind (in)computabilitatea În timpul celui de-al Doilea Război Mondial, Turing a fost unul dintre principalii criptoanalisti ai Bletchley Park și a descifrat unele dintre cele mai importante mesaje codificate de celebrele mașini Enigma Lucrările lui Turing despre matematica criptoanalizei au fost declasificate abia în Turing a devenit și fondatorul inteligenței artificiale, formulând principalele prevederi ale AI ca știință, în special, celebrul test Turing Din păcate, Turing a murit înainte de a împlini de ani; încă nu știm dacă a fost sinucidere din cauza tratamentului hormonal prescris de Turing pentru homosexualitate (din păcate, vremurile nu erau deloc tolerante) sau cianura a intrat accidental în celebrul măr (acest lucru, destul de ciudat, este destul de posibil) The Imitation Game este titlul unui biopic recent despre Turing Inteligența artificială și învățarea automată activitate nu prea științifică pentru a crea așa-zișii chatbot-uri care vizează menținerea unei conversații cu o persoană Unul dintre primii și cei mai faimoși astfel de roboți a fost ELIZA [ ], care, în anii , putea purta o conversație în stilul unui psihanalist clasic Și în , a existat un raport (destul de controversat) că testul Turing a trecut cu succes de "Eugene Goostman", un chatbot creat de trei programatori vorbitori de limbă rusă "Zhenya" se prezintă interlocutorilor ca un băiat de ani din Odesa, iar oamenii scriu adesea erorile în limba engleză, neînțelegerile și lipsa de cunoștințe în acest sens Dar chatboții nu au pretins niciodată că "înțeleg cu adevărat" limbajul uman în toate contextele Și într-un context filozofic, aceasta este legată de binecunoscuta construcție a așa-numitei camere chinezești de John Searle [ ]: imaginați-vă o cameră plină de bucăți de hârtie cu simboluri ciudate Un algoritm foarte complex pentru mutarea bucăților de hârtie este scris pe pereții săi, iar o persoană din cameră schimbă bucățile de hârtie conform acestui algoritm Se pare că algoritmul, de exemplu, acceptă o conversație în chineză, primind replici ca intrare și dând răspunsuri la acestea Dar o persoană nu cunoaște chineza și nu înțelege intrările și ieșirile, el doar mută bucățile de hârtie Cine sau ce "știe chineză" în acest exemplu? Se poate spune că camera cu hârtiile a început să "posede conștiință"? Dar testul Turing este doar una dintre ideile pentru stabilirea unei probleme specifice Dar cu știința inteligenței artificiale în sine, a apărut un caz destul de rar: noi, poate, putem urmări exact ora și locul nașterii acestei zone În , cei patru părinți fondatori ai inteligenței artificiale - John McCarthy, Marvin Minsky, Nathaniel Rochester și Claude Shannon - au organizat Seminarul Dartmouth, celebra școală de vară din Dartmouth Propunerea pentru acest atelier a fost poate cea mai ambițioasă propunere de grant din istoria informaticii Iată ce scria acolo John McCarthy [ ]: "Propunem un studiu al inteligenței artificiale pentru o perioadă de două luni cu zece persoane în vara anului la Dartmouth College, Hanover, New Hampshire Cercetarea se bazează pe presupunerea că orice aspect al învățării sau orice altă proprietate a inteligenței poate fi, în principiu, descrisă atât de precis încât o mașină să o poată imita Vom încerca să înțelegem cum să învățăm mașinile să folosească limbaje naturale, să formeze abstracții și concepte, să rezolvăm probleme care în prezent sunt posibile doar pentru oameni și să se îmbunătățească Credem că un progres semnificativ asupra uneia sau mai multor dintre aceste probleme este destul de posibil dacă un grup special selectat de oameni de știință va lucra la aceasta în timpul verii Impresionant, nu? Nu e de mirare că anii sunt epoca de aur a science-fiction-ului clasic, când Isaac Asimov, Ray Bradbury, Arthur C Clarke, Robert Heinlein și mulți alții și-au creat cele mai bune lucrări De această dată În zilele noastre, rețelele neuronale profunde sunt, de asemenea, folosite pentru a dezvolta chatbot și sisteme conversaționale - vom vorbi despre acest lucru pe scurt în Secțiunea Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc includ celebrele trei legi ale roboticii de Isaac Asimov, care în sine sună foarte neclar și contradictoriu; înțelegerea și acceptarea lor pentru execuție este poate chiar mai dificilă decât trecerea testului Turing (multe dintre cărțile lui Asimov despre roboți se bazează pe astfel de contradicții interne și neclarități) Cel mai surprinzător lucru din această poveste este că cererea a fost totuși admisă, seminarul de la Dartmouth a avut loc, iar faptul că obiectivele declarate nu au putut fi atinse în aceste două luni nu a servit drept bază pentru concluzii organizaționale imediate și nu a pus sfârşitul întregului intelect artificial Totul a început cu cercetări care au continuat tema inferenței logice automate (demonstrarea automată a teoremei) începută de logicieni Primele programe, create ca pași către inteligența artificială, au încercat să tragă concluzii în sistemele formale specificate de cercetători De exemplu, un program cu numele ambițios General Problem Solver (GPS) [ ], apărut în , ar putea deduce în sisteme definite de anumite tipuri de formule logice Alte programe din acea vreme încercau să opereze cu domenii mai limitate, așa-numitele microlumi (microlumi): rezolvă probleme algebrice verbale (cele în care două trenuri curg unul spre celălalt din bazin cu o viteză de km/h fiecare), rearanjați forme geometrice în spațiul tridimensional și etc Toată această știință a fost numită atunci de obicei cibernetică, după cartea lui Norbert Wiener "Cybernetics, or Control and Communication in Animal and Machine" [ ] În același timp, în a doua jumătate a anilor și începutul anilor , au apărut mașinile de auto-învățare, în special perceptronul Rosenblatt, despre care vom vorbi mult în capitolul Au primit imediat o largă publicitate, iar oamenii au început să se gândească că înainte de implementarea legilor roboticii este la îndemână Dar așa Pentru cititorii care au urmat un curs de logică matematică, să lămurim: formule formate din clauze Horn Cititorii menționați mai sus vor înțelege că acestea sunt tocmai formulele pentru care este destul de posibil să se construiască automat o derivație pentru care dar numai în comparație cu teorii mai complexe, de fapt, din punct de vedere computațional, aceasta este încă o procedură foarte complexă, care duce rapid la o explozie combinatorie si la o enumerare exponentiala de optiuni Este cunoscut faptul că la începutul anilor a avut loc în URSS o campanie de propagandă în masă împotriva ciberneticii în înțelegerea lui Wiener Problema a fost pusă în scenă la scară stalinistă, chiar și ediția din a Dicționarului filozofic a inclus definiția ciberneticii ca "pseudoștiință reacționară" Cu toate acestea, a devenit rapid clar că computerele sunt serioase și pentru o lungă perioadă de timp, și deja în matematicienii remarcabili Sobolev (același, Serghei Lvovich), Kitov și Lyapunov (nu Alexandru Mihailovici, desigur, ci Alexei Andreevici, unul dintre fondatorii ciberneticii sovietice) scriau în Questions of Philosophy: "Unii dintre filozofii noștri au făcut o greșeală gravă: fără a înțelege esența problemelor, au început să nege semnificația noii direcții în știință datorită faptului că unii jurnaliști burghezi ignoranți au fost angajați în publicitate și speculații ieftine în jurul ciberneticii Nu este exclusă posibilitatea ca interpretarea intensificată reacționară, idealistă a ciberneticii în literatura populară reacționară să fi fost organizată în mod deliberat cu scopul de a dezorienta oamenii de știință și inginerii sovietici în ordine să încetinească dezvoltarea unei noi direcții științifice importante în țara noastră " După cum puteți vedea, virajul de de grade a avut loc rapid, iar algoritmiștii sovietici, în general, au rămas mereu în fruntea științei Inteligența artificială și învățarea automată inteligența artificială nu putea justifica atunci progresele În Secțiunea , vom vorbi mai multe despre cum a început prima "iarnă AI" Unul dintre motive a fost eșecul complet al unui mare proiect de traducere automată, care era imposibil de realizat în mod adecvat în acei ani, iar celălalt a fost înțelegerea că un perceptron nu putea face mare lucru Prin urmare, anii au fost perioada de glorie a sistemelor bazate pe cunoaștere, care sunt încă o parte importantă a științei sistemelor expert Ideea aici este să acumulați un set suficient de mare de reguli și cunoștințe despre domeniul subiectului și apoi să trageți concluzii Unul dintre cele mai proeminente exemple de astfel de proiecte a fost sistemul MYCIN, dedicat identificării bacteriilor care provoacă infecții grave și apoi recomandării de antibiotice [ , ] Avea aproximativ de reguli, iar rezultatele sale (a produs o metodă adecvată de tratament în % din cazuri) nu au fost mai rele decât cele ale medicilor cu experiență și semnificativ mai bune decât cele ale începătorilor Mai mult, astfel de sisteme ar putea explica exact cum au ajuns la o anumită decizie și ar putea evalua încrederea lor în această ipoteză Mai târziu au devenit prototipuri de modele grafice probabilistice Apoi, cercetătorii au revizuit rețelele neuronale: la începutul anilor , a fost dezvoltat algoritmul de backpropagation (il vom discuta în detaliu în Capitolul ), care a deschis calea pentru o mare varietate de arhitecturi Unul dintre conceptele cheie ale anilor a fost conecționismul: ideea care a venit din științele cognitive că nu ar trebui să încercăm să stabilim sisteme formale axiomatice pentru raționamentul ulterioar în ele, ci să construim ansambluri mari de neuroni paraleli care, ca și creierul uman, cumva afli ce să faci Până la sfârșitul anilor optzeci au apărut deja majoritatea arhitecturilor principale despre care vom vorbi în această carte: rețele convoluționale, autoencodere, rețele recurente Și în general, primele aplicații comerciale au început în inteligența artificială Ei spun că unul dintre primele departamente AI care a apărut la DEC (Digital Equipment Corporation) până în a economisit companiei aproximativ milioane de dolari pe an, o sumă foarte serioasă la acea vreme Totuși, și aici, cercetătorii și mai ales "start-up-urile" anilor optzeci nu au rezistat În urma nebuniei generale pentru inteligența artificială, multe companii au început din nou să facă promisiuni în stânga și în dreapta Prin urmare, al doilea val de entuziasm pentru inteligența artificială s-a încheiat la începutul anilor nouăzeci, când multe companii nu au reușit să se ridice la așteptările umflate și au izbucnit În anii , accentul principal s-a mutat pe învățarea automată și căutarea modelelor în date, iar rețelele neuronale, așa cum am menționat mai sus, nu Este probabil ca de atunci expresia "inteligență artificială", cel puțin în știința rusă, să nu fi fost foarte cunoscută; mulți matematicieni se vor încrunta de nemulțumire dacă aud că faci inteligență artificială Așa că vă sfătuim să nu folosiți această expresie, ci să spuneți "învățare automată": este atât mai precis, cât și mai sigur Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc considerată deosebit de promițătoare Dar datele în sine, în special odată cu dezvoltarea internetului, au devenit din ce în ce mai multe, computerele au devenit din ce în ce mai rapide Drept urmare, la mijlocul anilor , o altă idee nouă a funcționat în sfârșit, alții au ajuns repede la pas și, după cum se spune, au încheiat totul Întreaga noastră carte este dedicată acestui lucru, așa că nu vom încerca să repetăm pe scurt întreaga poveste acum Dar cum rămâne cu inteligența artificială? Cum merge visul etern al omenirii acum? Desigur, acum nimeni nu promite că suntem pe cale să construim inteligență artificială, iar androizi eleganti sunt pe cale să ne aducă cafea, să răspundă la apeluri, să scoată gunoiul și să execute toate celelalte comenzi mai puțin inocente Cu toate acestea, cercetătorii și futuriștii moderni, la fel ca în anii , sunt din nou foarte optimiști în ceea ce privește inteligența artificială O parte semnificativă a experților consideră că o inteligență artificială puternică (IA puternică, adică inteligență artificială de nivel uman sau mai mare) poate fi creată în timpul vieții noastre [ ] Iar acest lucru duce la raționamente mult mai puțin optimiste cu privire la ceea ce ne amenință pe noi, oamenii, cu o asemenea desfășurare a evenimentelor Nu, nu vorbim despre faptul că inteligența artificială va înlocui oamenii și va duce la faptul că nu vom avea nimic de-a face cu tine și va trebui să ne sibarităm fără scop toată viața sau să căutăm un sens nou, neproductiv al vieții: asta scenariul nu sună suficient de catastrofal Mai degrabă, este o chestiune despre cum o inteligență artificială care se auto-îmbunătățește al cărei scop a fost identificat în mod imprudent ca fiind producția de agrafe, poate, pentru a atinge acest obiectiv, să preia discret puterea asupra planetei și să o transforme în întregime în fabrici de agrafe și nave spațiale concepute să se transforme în agrafe ale rămășiței Universul vizibil În general, raționament foarte interesant Principalele surse pe această temă provin de la filozoful suedez Nick Bostrom, autor al cunoscutei cărți "Inteligenta artificială: etape, amenințări, strategii" [ ], și de la cercetătorul american al inteligenței artificiale (nu într-un mod matematic, ci mai degrabă) într-un sens filozofic) Eliezer Yudkowsky (Eliezer S Yudkowsky), unul dintre co-fondatorii Institutului de Cercetare a Inteligenței Mașinilor (MIRI), autorul unui număr de cărți și recenzii despre amenințările inteligenței artificiale [ , , , ], precum și o amplă și foarte interesantă expunere populară a principiilor gândirii raționale [ ] Dar aceasta este încă o chestiune pentru viitor Și acum este timpul să trecem la prezent: la ce face învățarea automată astăzi, ce sarcini își stabilește și ce metode folosește Să începem cu o prezentare foarte scurtă a întregii zone Cu toate acestea, dacă doriți să citiți o expunere cu adevărat populară a acestor principii, nu căutați mai departe decât Harry Potter și metodele raționalității de Eliezer Yudkowsky [ ] Aceasta cu siguranță nu este literatură de înaltă, dar ideile sunt prezentate într-un mod foarte interesant Câteva lucruri despre cuvinte: ce este învățarea automată Un pic despre cuvinte: ce este învățarea automată Aristotel caută adevărul peste tot Dar cum? Doar prin împărțirea nesfârșită a conceptelor și prin elucidarea celei mai subtile terminologii, care ne obligă uneori să trecem la dicționarul foarte real al terminologiei foarte fracționate și rafinate A F Losev Istoria filosofiei antice într-o prezentare concisă Și să nu ne stânjenim faptul că părțile esențelor sunt în întregi ca și în subiecte, astfel încât să nu trebuie niciodată să spunem că aceste părți nu sunt esențe: pentru ceea ce este în subiect, s-a spus că nu este în ea precum părţile sunt cuprinse într-un întreg Aristotel Mai târziu, în carte, vei întâlni multe cuvinte diferite care ar putea fi noi pentru tine Dacă nu cunoașteți deja această terminologie, nu vă faceți griji, de obicei nu este atât de dificil Dar o parte din terminologie, ca să spunem așa, schița generală și structura învățării automate, merită discutată în prealabil Să începem cu ceea ce, de fapt, învățarea automată (învățarea automată) Este intuitiv clar că "învățarea" este atunci când un anumit model "învață" într-un fel și apoi începe să producă rezultate, adică, cel mai probabil, să prezică ceva Se poate chiar da o definiție foarte generală a "abilitatea de învățare", ceva asemănător cu cea dată de Thomas Mitchell în cartea clasică "Machine Learning" [ ]: sarcinile (relativ la F) se îmbunătățesc cu experiența nouă Deși această definiție sună extrem de generală și abstractă, ea clarifică de fapt unele puncte importante De exemplu, locul central în acesta este ocupat nu de date (deși există și ele), ci de funcția obiectivă Când începi să rezolvi orice problemă practică, este extrem de important să definești funcția obiectiv "pe țărm" și să convingi cum vei evalua rezultatele Alegerea funcției obiectiv determină complet toate lucrările ulterioare și chiar și în probleme similare, diferite funcții obiective pot duce la modele complet diferite De exemplu, ar fi grozav să "înveți un computer să citească", dar mai întâi trebuie să definești ce înseamnă de fapt Să fii capabil să răspunzi corect la întrebările din textul "citește"? Faceți analiza Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc Orez Clasificarea generală a enunțurilor problemelor de învățare automată promoții? Afișați cele mai relevante articole Wikipedia pentru acest text? Răspunsuri diferite duc la diferite modele și direcții de cercetare Totuși, definiția lui Mitchell nu ne va fi suficientă Care sunt sarcinile învățării automate, în ce constă? Am arătat principala clasificare a problemelor de învățare automată în Fig Cele două clase principale de probleme de învățare automată sunt învățarea supravegheată și învățarea nesupravegheată Când învățați cu un profesor, intrarea este un set de exemple de instruire, care se numește de obicei un set de date de instruire sau de instruire (set de antrenament sau eșantion de antrenament - eșantion de antrenament), iar sarcina este de a continua răspunsurile deja cunoscute la o nouă experiență , exprimat de obicei sub forma unui set de date de testare (set de testare, proba de testare) Presupunerea principală aici este că datele disponibile pentru instruire vor fi oarecum similare cu datele pe care va trebui apoi aplicat modelul antrenat, altfel nu va fi posibilă nicio generalizare Pentru "citirea" textului, un exemplu de învățare supravegheată este formarea unui model care construiește arbori de analiză a propozițiilor (care cuvinte depind de care) dintr-un set de arbori construiti de oameni pentru anumite propoziții Presupunerea aici este că arborii de analiză sunt construiți conform acelorași legi, iar un model antrenat pe un anumit set de arbori de analiză poate fi aplicat propozițiilor noi care nu sunt incluse în setul de antrenament Dacă această ipoteză este încălcată, modelul nu va funcționa De exemplu, dacă lingviștii marchează propoziții în engleză și apoi aplică modelul instruit în limba germană, unde literele sunt aproximativ aceleași, dar sintaxa este complet diferită, nu ar trebui să vă așteptați la un comportament inteligent de la model Câteva lucruri despre cuvinte: ce este învățarea automată Sarcinile de învățare supravegheată sunt de obicei împărțite în sarcini de clasificare și regresie În problema de clasificare, trebuie să definiți obiectul de intrare într-una dintre clasele (de obicei un număr finit), de exemplu, împărțiți fotografiile de animale în pisici, câini, cai și "toate celelalte"; sau dintr-o fotografie a unei fețe umane pentru a înțelege care dintre prietenii tăi de pe o rețea de socializare este reprezentat pe ea Continuând cu exemplul de limbă, o sarcină tipică de clasificare este clasificarea cuvintelor în părți de vorbire Și într-o problemă de regresie, trebuie să preziceți valoarea unei anumite funcții, care de obicei poate avea infinit de multe valori diferite De exemplu, pentru a prezice greutatea unei persoane pe baza înălțimii unei persoane, faceți o prognoză a vremii de mâine, preziceți prețul unui stoc sau, de exemplu, evidențiați un dreptunghi într-o fotografie în care se află o față umană - acest lucru trebuie făcut astfel încât aceste dreptunghiuri să fie apoi alimentate la intrarea clasificatorului menționat mai sus Împărțirea în regresie și clasificare, desigur, este foarte condiționată, se pot găsi cu ușurință exemple "intermediare" (aceeași analiză a propoziției - căreia clasă ar trebui să i se atribuie sarcina "construiește un copac"?) Dar, de obicei, este clar ce problemă rezolvăm, iar această diviziune are o semnificație semnificativă: funcțiile obiective și, ca urmare, procesul de învățare se schimbă Și, sincer, există și alte tipuri de sarcini care nu se încadrează în această clasificare simplă De exemplu, în sistemele de căutare și recomandare, problema de a învăța să ierarhăm este adesea întâlnită Se pune astfel: în funcție de datele disponibile (în motorul de căutare vor fi textele documentelor și comportamentul trecut al utilizatorilor), clasați, aranjați obiectele disponibile în ordinea descrescătoare a funcției obiectiv (în motorul de căutare se se numește relevanță, cât de potrivit este acest document pentru a-l emite ca răspuns la cererea dată) Această sarcină este oarecum similară cu sarcina de regresie - într-un fel sau altul trebuie să prezicem o funcție obiectivă continuă, aceeași relevanță Dar, în același timp, nu există deloc valori ale funcției în sine în date și nu sunt importante pentru noi Contează doar rezultatele comparării acestei funcții pe diferite obiecte (care document va fi mai mare decât celălalt în rezultatele căutării) Acest lucru duce la o serie de metode de predare interesante și specifice Dacă nu există un set de date etichetat care să corespundă unei sarcini specifice, dar există pur și simplu date în care este necesar să "găsești un sens", atunci apar probleme de învățare nesupravegheată Cel mai tipic exemplu de problemă de învățare nesupravegheată este gruparea: trebuie să împărțiți datele în clase necunoscute anterior, în funcție de o anumită măsură de similitudine, astfel încât punctele atribuite aceluiași grup să fie cât mai aproape unul de celălalt, cât mai asemănător posibil , iar punctele din grupuri diferite ar fi cât mai îndepărtate, cât mai asemănătoare De exemplu, prin rezolvarea unei probleme de grupare, puteți izola familiile de gene din secvențele de nucleotide sau puteți grupa utilizatorii site-ului dvs web și să-l personalizați pentru fiecare grup sau să segmentați o imagine medicală, astfel încât să fie ușor de înțeles unde se află tumora O altă problemă comună de învățare nesupravegheată este reducerea dimensionalității, atunci când datele de intrare au un volum mare Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc dimensionalitate (de exemplu, dacă aveți text rupt ca intrare, dimensionalitatea va fi de zeci de mii și dacă fotografiile sunt de milioane), iar sarcina este de a construi o reprezentare a datelor cu o dimensionalitate mai mică , care totuși va reflecta pe deplin datele originale Adică, de exemplu, folosind o reprezentare a unei dimensiuni inferioare, va fi posibilă reconstrucția cu succes a punctelor inițiale ale unei dimensiuni superioare Acesta poate fi văzut ca un caz special al problemei generale de extracție a caracteristicilor și vom vorbi despre el în detaliu pe parcursul cărții, și mai ales în secțiunea , unde sunt discutate autoencodare Și, în sfârșit, a treia și cea mai generală clasă de probleme de învățare nesupravegheată este problema de estimare a densității, ni se oferă puncte de date {хі, , лг} și, eventual, câteva idei a priori despre de unde provin aceste puncte, dar noi doresc să estimeze distribuția p(x) din care au fost obținute Aceasta este o afirmație foarte generală a problemei, multe pot fi reduse la ea, iar rețelele neuronale o rezolvă parțial Adesea în viață există o încrucișare între învățarea cu un profesor și învățarea fără profesor Acest lucru se întâmplă de obicei atunci când exemplele nemarcate sunt foarte ușor de găsit, iar marcate este dificil de obținut De exemplu, în același exemplu cu analizarea, să tastați cât mai multe texte nemarcate doriți nu este dificil, dar să desenați chiar și un copac manual nu este ușor Sau, să zicem, gândiți-vă la ce sunt "date etichetate" pentru recunoașterea vorbirii Pur și simplu potrivirea fișierului audio de vorbire cu textul, mai ales dacă textele sunt suficient de lungi, poate să nu fie suficientă aici Datele cu adevărat etichetate pentru recunoaștere sunt fișiere de sunet în care limitele fiecărui fonem, fiecare sunet al vorbirii umane, sunt marcate manual (sau cel puțin verificate) Este o treabă al naibii, de obicei delegată unor cercetători juniori, dar chiar și o întreagă armată de lingviști fonologici se va mișca destul de încet Și puteți înregistra câte sunete nemarcate ale vorbirii umane în direct doriți, pur și simplu pornind reportofonul pentru înregistrare Această situație este uneori denumită învățare semi-supercizată sau învățare semi-supercisă și, de asemenea, o vom întâlni de mai multe ori în această carte În capitolul , ne vom întâlni cu o altă enunțare a problemei - învățarea prin întărire (învățarea prin întărire), atunci când un agent, aflându-se într-un anumit mediu, efectuează anumite acțiuni și primește recompense pentru aceasta Scopul unui agent este de a obține cât mai multă recompensă în timp, iar pentru aceasta este o idee bună să înțelegeți ce acțiuni duc în cele din urmă la succes Astfel poți învăța cum să joci diferite jocuri sau, de exemplu, să faci un protocol excelent pentru testarea A/B Și asta, desigur, nu este totul Dar deocamdată, vom înceta în continuare să mai enumeram diferitele domenii ale învățării automate și vom trece la zona care ne interesează cel mai mult în această carte, rețelele neuronale Și pentru acei cititori care ar dori să afle mai multe despre învățarea automată, le recomandăm două manuale care au devenit deja clasice: Christopher Caracteristicile creierului uman Bishop Pattem Recognition and Machine Learning [ ] și Machine Learning a lui Kevin Murphy: A Probabilistic Approach [ ] Ambele cărți descriu în mod constant o abordare probabilistică a învățării automate bazată pe teorema lui Bayes Aceasta, în opinia noastră, este cea mai completă și corectă viziune din punct de vedere matematic a ceea ce se întâmplă cu modelele de învățare Bineînțeles, aș dori să aplic o abordare matematică riguroasă a învățării profunde, dar până acum oamenii au reușit doar parțial , iar structura matematică a acelor structuri geometrice complexe pe care le vom obține în spațiile caracteristice și cu atât mai mult în spații a obiectelor în sine pentru învățare, practic neexplorate Cine știe, poate tu, cititorul, poți ajuta la închiderea acestui decalaj enervant? Caracteristicile creierului uman Pentru a găzdui atât creierul altor oameni și, în plus, pe alții atât de mari și puternici, este necesar (cum a spus o fată, prima dintre prințesele noastre despre cineva) ca propriul creier să-și facă loc, să se zvârcească și să se micșoreze în volum M Montaigne Despre pedanterie Când vorbim despre probleme de învățare automată, întâlnim rapid probleme pe care creierul uman este încă capabil să le rezolve mai bine și mai rapid decât un computer De exemplu, suntem mai buni cu limbajul natural: putem citi, înțelege și studia în mod semnificativ o carte, iar computerele moderne au mari probleme în a răspunde chiar și la întrebările care sunt evidente pentru oameni Și, în general, ne pricepem să învățăm în sensul larg al cuvântului - programele de calculator sunt încă foarte departe de nivelul uman de generalizări și de căutarea relațiilor între informații eterogene Ce face creierul uman atât de eficient? Cum reușește să ajungă la asemenea înălțimi? Care este diferența dintre ceea ce fac neuronii în creier și ceea ce fac tranzistorii într-un procesor? Acest subiect este inepuizabil, așa că aici vom oferi doar câteva exemple locale, cu ajutorul cărora vom demonstra principalele diferențe și vom motiva parțial anumite caracteristici ale rețelelor neuronale Creierul uman (și orice alt) este format din neuroni Fiecare dintre ele are un proces lung, axonul, și multe procese scurte, dendritele, Vom vorbi despre abordări neuro-bayesiene în capitolul , dar acolo abordarea va fi inversă: vom folosi în continuare rețelele neuronale ca "cutie neagră", dar ele vor începe să ne ajute să facem inferență bayesiană și să aproximăm distribuțiile complexe Sau, până de curând, m-am descurcat: progresul se accelerează, singularitatea este aproape, cine știe, poate când citești asta, totul a fost deja decis Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc care comunică cu axonii altor neuroni Conexiunile dintre dendrite si axoni au si ele o structura complexa, in care nu vom intra si se numesc sinapse Există o mulțime de conexiuni în creier: aproximativ IO (o sută de miliarde) de neuroni, fiecare dintre care are o medie de de conexiuni, adică se dovedește că creierul nostru conține aproximativ -IO (o sută de trilioane) sinapse Fiecare neuron trimite din când în când un impuls nervos de-a lungul axonului (în engleză se numește spike), care este de natură electrică În timp ce neuronul este în viață, nu se oprește niciodată și continuă să dea semnale Dar, în același timp, neuronul poate fi în două stări diferite: atunci când este în starea "oprit", frecvența de semnalizare este mică, iar când este excitat, "se pornește", rata de declanșare crește foarte mult Activarea neuronilor depinde de semnalele care vin prin sinapse și apoi dendritele de la alți neuroni Comunicarea în sinapsă, apropo, poate fi atât pozitivă (excitație), când activarea unui neuron vecin crește probabilitatea activării noastre, cât și negativă (inhibație), când activarea unui neuron vecin, dimpotrivă, suprimă activitate Desigur, aș vrea să fac o analogie între neuroni și tranzistori care alcătuiesc procesorul, dar deja la nivelul impulsurilor nervoase vedem prima diferență importantă între creier și computer Cert este că neuronul funcționează stocastic: produce semnale electrice la intervale aleatorii Secvența lor poate fi destul de bine aproximată printr-un proces aleatoriu Poisson, a cărui intensitate variază în funcție de dacă neuronul este sau nu excitat Calculatoarele au și porți care schimbă semnale între ele, dar nu fac acest lucru deloc stocastic, ci cu o sincronizare foarte strânsă: frecvența procesorului, care a fost măsurată de mult în gigaherți, este frecvența unei astfel de sincronizări Pe fiecare ciclu, poarta unui nivel transmite un semnal la nivelul următor și fac acest lucru, deși de câteva miliarde de ori pe secundă, dar strict simultan, la comandă Poate că adevărul este că totul este neclar în biologie, iar sincronizarea între neuroni ar fi de dorit, dar evoluția care ne-a creat pur și simplu nu a reușit să o realizeze? Deloc: cele mai simple observații arată că, de fapt, neuronii sunt capabili să se sincronizeze și să detecteze foarte precis perioade foarte scurte de timp Cea mai simplă și mai izbitoare ilustrare a acestui lucru este sunetul stereo Pe măsură ce vă deplasați dintr-o parte în cealaltă a camerei, vă puteți baza doar pe sunetul care vine de la difuzoarele computerului pentru a determina direcția sursei sale Evident, în vremuri preistorice, era extrem de important ca oamenii să înțeleagă, de stânga De fapt, acesta este doar un tip posibil de neuron Există neuroni fără axon deloc, unele au un axon și nu dendrite, altele au o dendrite, dar toate apar în situații destul de rare, adesea nu la oameni Creierul nostru este format fără echivoc din neuroni bipolari, care au un axon și multe dendrite Caracteristicile creierului uman sau o creangă scârțâită sub laba unui tigru din dreapta Pentru a afla direcția, observi diferența de timp când sunetul ajunge în urechea stângă și dreaptă Distanța dintre urechile interne nu este prea mare, douăzeci de centimetri Și dacă îl împărțiți la viteza sunetului ( m/s), obțineți un interval foarte scurt, zecimi de milisecundă, pe care, totuși, neuronii îl recunosc perfect, ceea ce vă permite să determinați direcția cu o bună acuratețe Adică, creierul tău, în principiu, ar putea funcționa ca un computer cu o frecvență măsurată în kiloherți Având în vedere gradul enorm de paralelizare atins în arhitectura creierului, acest lucru ar putea duce la o putere de calcul destul de rezonabilă Dar din anumite motive, creierul nu Apropo, despre paralelizare A doua notă importantă despre activitatea creierului uman: recunoaștem fața unei persoane în câteva sute de milisecunde Și frecvența impulsurilor în axoni variază de la Hz în stare inactivă până la aproximativ Hz în timpul celei mai puternice activări Aceasta înseamnă că conexiunile dintre neuronii individuali sunt activate în cel puțin zeci de milisecunde, iar în întregul ciclu de recunoaștere a feței umane nu poate exista un lanț secvenţial de activări mai lung decât doar câțiva neuroni; probabil mai puțin de o duzină! Adică, creierul, pe de o parte, conține un număr mare de neuroni și chiar mai multe conexiuni între ei, dar, pe de altă parte, este foarte plat în comparație cu un procesor convențional Procesorul din computer execută lanțuri secvențiale lungi de comenzi, procesându-le în mod sincron, în timp ce creierul are lanțuri scurte, dar funcționează asincron (stochastic) și cu un grad foarte mare de paralelizare: neuronii sunt activați în multe locuri ale creierului imediat, când încep să recunoască o față și să facă multe alte lucruri interesante Putem spune că din acest punct de vedere, creierul seamănă mai mult cu o placă video decât cu un procesor și chiar ne vom întoarce la plăcile video O altă caracteristică importantă este că axonii pot fi foarte lungi: de exemplu, de la măduva spinării până la membre, axonii au aproximativ un metru lungime Prin urmare, un axon poate traversa cu ușurință aproape întregul creier și, prin urmare, structura conexiunilor dintre neuronii din creier este extrem de complexă În capitolul , vom vorbi puțin despre cum funcționează acest lucru în cortexul vizual, dar un model în care neuronii sunt împărțiți în "straturi" (ca într-o rețea neuronală profundă) și activarea se răspândește cu grijă de la neuronii senzoriali la concepte abstracte, și apoi înapoi pentru a activa țesutul muscular, de fapt foarte simplificat În creierul uman, există un număr imens de conexiuni "orizontale" între neuroni (când neuronii de același nivel sunt conectați între ei), multe lanțuri închise de neuroni conectați, precum și conexiuni neașteptate și de neînțeles ale neuronilor din total diferiți zone ale creierului Toate aceste conexiuni funcționează din când în când, dar o singură imagine a motivului pentru care este nevoie de toate acestea și a modului în care sunt utilizate nu s-a dezvoltat încă în știință Deci, de fapt, avem o înțelegere foarte slabă a modului în care funcționează creierul uman real, iar rețelele neuronale artificiale nu sunt Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc o încercare de a se apropia de structura reală, ci mai degrabă de modele abstracte create pentru a rezolva probleme de optimizare Este demn de remarcat aici că în neurobiologie și informatică există o întreagă zonă de cercetare legată de modelarea neuronilor biologici, "adevărați" Există multe modele diferite, ele pot fi împărțite în mod convențional în cele electrice, care prezic tensiunea pe membrana celulară a unui neuron [ ], și cele naturale, care prezic probabilitatea (și frecvența) de activare în funcție de intrare acţiune [ ] Dar această direcție este foarte departe de subiectul cărții noastre, așa că nu ne vom adânci în ea Modele la fel de abstracte precum perceptronul, în care rata de declanșare a unui neuron este o funcție de activare neliniară a sumei ponderate a intrărilor (ne vom uita la perceptronul în detaliu în capitolul și în întreaga carte), sunt de puţin interes pentru biologi De exemplu, în ele producția unui neuron nu depinde deloc de timp, iar majoritatea modelelor "aproape de biologie" încearcă să imite procesele stocastice de generare a impulsurilor nervoase Aceste modele sunt utilizate în prezent nu numai pentru interes, ci și pentru dezvoltarea "protezelor" neuronilor, de exemplu, pentru refacerea retinei ochiului [ ] Dar foarte aproape de subiectul nostru este o altă proprietate importantă a creierului uman - plasticitatea acestuia Multe studii ale creierului, în special cele timpurii, au evidențiat zone din acesta care sunt responsabile pentru anumite funcții În general, doar acest lucru a fost disponibil primilor neuroștiință: ei puteau studia ceea ce pierde o persoană cu leziuni ale uneia sau altei părți a creierului Deci, de exemplu, centrul lui Broca, descoperit de Paul Broca încă în , este responsabil de articularea vorbirii Dacă centrul lui Broca este deteriorat, pacientul înțelege în continuare totul, dar atunci când încearcă să vorbească, se dovedește a fi o prostie: gramatica se destramă, nu este posibilă selectarea corectă a prepozițiilor, sunetele din cuvinte sunt confuze Iar zona lui Wernicke, dimpotrivă, este responsabilă de înțelegerea vorbirii după ureche Există multe zone foarte specializate în creierul uman Pe baza acestor studii, s-ar putea crede că mama natură (mai precis, evoluția mamei) a creat creierul uman ca un computer cu o specificație detaliată: există o "placă video" responsabilă de vedere, există o "placă de sunet" care procesează sunet, există un "chatbot care a învățat o limbă și toate sunt arhitecturi speciale ale neuronilor, special adaptate sarcinii corespunzătoare chiar și la nivel genetic Un astfel de cadru de referință era, desigur, destul de logic în primele etape ale studiului creierului Galileo Galilei este considerat fondatorul acestei teorii și Paul Broca ( - ) a fost un chirurg și antropolog francez Broca a fost de fapt fondatorul antropologiei moderne: la mijlocul secolului al XIX-lea, a realizat o serie de studii comparând caracteristicile scheletelor din diferite vremuri (a trebuit să dezgroape morminte, ceea ce nu era foarte binevenit la acea vreme), a fondat prima societate de antropologie din Europa și revista Anthropological Review Cu toate acestea, în vremea noastră, omul de știință ar fi ajuns destul de rău: pe baza faptului că dimensiunea creierului este direct legată de nivelul de inteligență, a ajuns la concluzia că bărbații sunt în medie mult mai deștepți decât femeile și, de asemenea, a împărțit rasele în "superioare" și "inferioare" pe baza comparațiilor cu dimensiunea creierului lor Apropo, creierul lui Paul Broca însuși se află acum la "Muzeul Omului" din Paris Caracteristicile creierului uman marea popularitate în secolul al XIX-lea a frenologiei se bazează în esență pe această presupunere Cu toate acestea, acesta nu este neapărat cazul! Studiile de neuroplasticitate arată că neuronii din diferite regiuni ale creierului pot prelua funcții care nu le sunt caracteristice în mod normal atunci când este necesar Acum este clar că în creierul nostru, nu numai că se formează în mod constant noi conexiuni între neuroni (noi sinapse), dar există și o reînnoire continuă a neuronilor înșiși (neurogeneza) Și neuronii deja existenți pot fi reeducați pentru a procesa semnale complet noi Se crede că fenomenul durerilor-fantomă se bazează pe neuroplasticitate: neuronii care erau "responsabili" pentru organele pierdute încep să învețe ceva nou, iar alte părți ale creierului interpretează în mod obișnuit noile semnale ca provenind de la membre care nu au existat pentru o perioadă lungă de timp Mai mult, sunt deja dezvoltate dispozitive foarte interesante bazate pe neuroplasticitate Sistemul BrainPort, de exemplu, încearcă să învețe o persoană să vadă cu limbaj! Informațiile de la camera montată pe cap sunt transmise - direct în formă digitală, pixel cu pixel - către o matrice specială de electrozi atașați la limbă (limba este necesară aici doar pentru că este un organ foarte sensibil cu multe terminații nervoase) Drept urmare, o persoană este într-adevăr capabilă să învețe să vadă (nu în același mod ca în cazul ochilor obișnuiți, desigur), adică creierul pare să recunoască cumva că informația tactilă care vine din limbă nu mai este ca gustul alimentelor, ci mai degrabă seamănă cu imaginile vizuale și îl "redirecționează" către cortexul vizual Da, iar un implant cohlear convențional, care ajută deja sute de mii de persoane cu deficiențe de auz, se bazează pe un principiu similar: nu încearcă să simuleze senzațiile auditive în urechea internă, ci digitalizează sunetul și îl alimentează la electrozi care stimulează direct nervul cohlear Și cu atât mai mult, în aceste exemple, s-ar putea spune că creierul deja "are o mașină" pentru procesarea imaginilor, iar antrenamentul suplimentar ar putea consta în a învăța cum să transfere date dintr-un "punct de intrare" neobișnuit în zonele corecte ale cortexului creierul (de fapt, aparent, așa se întâmplă), și nu în a învăța să procesăm aceste date de la zero Cu toate acestea, există exemple de predare a unor lucruri complet noi, necaracteristice pentru o persoană De exemplu, unii orbi dezvoltă capacitatea de a ecoloca, de a determina locația obiectelor din jur prin sunetul reflectat de ele, la fel ca liliecii (desigur, nu la fel de buni ca liliecii) Unii nevăzători pot pur și simplu să facă clic pe limba și să identifice obiectele din jur ascultând ecourile [ ] Iar în alte experimente, oamenii complet văzători au fost instruiți în ecolocație, primind semnale de la un sonar montat pe ei Așadar, am aflat că creierul uman este format din neuroni interconectați care sunt activați în funcție de "strămoșii" lor și, atunci când sunt activați, își transmit semnale unul altuia Am descoperit că creierul se poate adapta la noi surse de informații, chiar și la cele care îi sunt complet străine de la început Studii de neuroplasticitate și pur și simplu faptul că toți neuronii din creier b Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc funcționând aproximativ în același mod, ei ne convin că întregul creier funcționează conform unui anumit "algoritm unic" care poate antrena conglomerate de neuroni pe o varietate de date, extragând caracteristici dintr-un flux de informații nestructurate Vom reveni la modul în care funcționează creierul uman real de mai multe ori și vom vorbi despre cortexul vizual în detaliu în secțiunea Când se creează inteligență artificială, este foarte natural să ne punem întrebarea: putem modela cumva și acest algoritm unic? Ar fi foarte tentant să construim un model al acestui "algoritm unic", să grupăm mulți, mulți neuroni artificiali și să obținem un creier gata de utilizare Ideea de bază a rețelelor neuronale artificiale - de a asambla o rețea de neuroni simpli care se declanșează sau nu se declanșează în funcție de greutățile care pot fi antrenate - este într-adevăr împrumutată de la natură Cu toate acestea, în continuare calea dezvoltării inteligenței artificiale s-a îndepărtat de natură; neuronii reali sunt mult mai complexi decât modelele pe care le vom discuta în această carte În Secțiunea , vom vedea cum funcționează modelele de învățare a neuronilor și vom vorbi despre de ce ceea ce facem în rețelele neuronale artificiale (și, prin urmare, în această carte) nu este foarte asemănător cu ceea ce facem în capul meu Și în secțiunea următoare, vom divaga puțin și vom vorbi despre de ce realizările neuroștiinței la nivel macro nu sunt încă tocmai potrivite pentru rolul modelelor Limitele neuroștiinței: ce știm cu adevărat? Chiar dacă se obține o claritate deplină, rămâne întotdeauna necunoscut cum exact acest sistem de concepte corespunde realității W Heisenberg Fizica si Filosofie Parțial și întreg Ar trebui să fii mai responsabil cu cititorul rus Francezul va citi, de exemplu, marchizul de Sade, va rânji sălbatic și va merge mai departe Și mansarda cititorului rus va merge: iată, cât de deștepți sunt oamenii, se pare V Shinkarev Mitkovo dansează Așadar, am aflat (foarte intuitiv, desigur) că creierul creat de evoluție pare să aibă un fel de "algoritm unic" prin care creierul poate învăța Putem spune că unul dintre obiectivele finale îndepărtate, de fapt, ale programului de creare a inteligenței artificiale este de a înțelege, sau cel puțin pur și simplu O carte de știință populară despre învățarea automată publicată recent de Pedro Domingos s-a numit: Algoritmul Mașter (în traducere rusă - "Algoritmul suprem") [ ] Limitele neuroștiinței: ce știm cu adevărat? modelați acest "algoritm unic" și construiți programe care să-l folosească și să învețe în același mod ca și noi cu dvs Să ne jucăm un pic avocatul diavolului, totuși Ne referim adesea în această carte la afirmații că "creierul funcționează așa" sau "creierul funcționează așa" Dar este într-adevăr totul ca ceea ce face creierul uman? Desigur, nu vom induce în mod deliberat cititorul în eroare: dacă scriem ceva despre creier, înseamnă că cel puțin a treia mâini (dar de încredere!) au auzit că aceasta este exact înțelegerea modernă a modului în care funcționează creierul, ce neuroni individuali și cum totul se combină în acel obiect uimitor pe care Michio Kaku îl numește pe bună dreptate "cel mai complex obiect din univers" [ ] Dar cât de mult poți avea încredere în "înțelegerea modernă"? La urma urmei, nu putem înțelege întregul creier și să ne dăm seama ce face fiecare neuron în mod individual, putem doar să facem câteva cercetări locale, să vedem ce se schimbă sub influența anumitor influențe externe, adesea destul de dure (cum ar fi, de exemplu, leziuni, care sunt mari fragmente ale creierului nu mai funcționează) Cum putem verifica dacă metodele noastre oferă ceva aproape de adevăr? În lucrarea lor recentă fundamentală, Can a Neuroscientist Understand a Microprocessor? [ ], Eric Jonas și Conrad Cording încearcă să vadă cum neuroștiința modernă ar fi capabilă să analizeze un "creier" foarte simplu folosind procesorul MOS ca exemplu Apple I și Atari VCS; Apropo, vom reveni la jocurile clasice Atari în Secțiunea Cipul procesorului în sine este format din doar tranzistori; pentru cercetare, a fost construită o reconstrucție digitală precisă a cipului care ar putea rula aceleași jocuri clasice Donkey Kong și Space Invaders și a fost capabilă să genereze aproximativ , GB de date pe secundă de emulare pentru analize ulterioare Dacă comparăm acest lucru cu capacitățile enorme ale creierului uman, este clar că oamenii de știință și-au propus o sarcină mult mai puțin ambițioasă decât studierea creierului real, iar datele cu drepturi depline despre starea fiecărui tranzistor după fiecare ciclu reprezintă un nivel de detaliu la care neuroștiința modernă nici măcar nu poate visa încă îndrăznește Pentru analiza lor, Jonas și Cording au folosit metodele clasice pe care le folosește neuroștiința pentru a studia creierul uman real De exemplu, ei în mod specific Michio Kaku (născut în ) este un om de știință american de origine japoneză Părinții lui Kaku s-au întâlnit în așa-numita tabără de segregare din Lacul Tule, unde mulți japonezi care locuiau în Statele Unite au fost deportați în timpul celui de-al Doilea Război Mondial La școală, curiosul Michio a construit un accelerator funcțional în garaj, încercând să obțină antimaterie Și acum distinsul om de știință Michio Kaku este cunoscut publicului larg ca un popularizator al științei; Vă recomandăm cu sinceritate cărțile sale principale, dintre care multe au fost traduse în limba rusă: "Fizica imposibilului", "Fizica viitorului", ceea ce este deosebit de interesant în contextul acestei cărți "Viitorul rațiunii" și altele De altfel, titlul articolului este o referire la articolul acum clasic al lui Yuri Lazebnik "Can a Biologist Fix a Radio Receiver" [ ], retipărit la începutul anilor de trei reviste diferite, inclusiv Cell În acest articol, Lazebnik încearcă să analizeze radioul distrus Ocean folosind metodele științelor biologice cu concluzii la fel de dezamăgitoare Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc daune simulate ale tranzistorilor individuali pentru a afla de ce sunt "responsabili" Cu MOS , își puteau permite să încerce să deterioreze literalmente fiecare tranzistor Într-adevăr, au reușit să izoleze subseturile distincte de tranzistori care erau necesare pentru a rula fiecare dintre cele trei jocuri luate în considerare (Space Invaders, Donkey Kong și Pitfalphy, fără un astfel de tranzistor, un joc nu ar rula, iar celelalte două ar funcționa bine S-ar putea presupune că acești tranzistori sunt cheia acestui "comportament" special Cu excepția faptului că nu a existat într-adevăr așa ceva: majoritatea acestor tranzistori au implementat de fapt funcții simple, cum ar fi adăugarea și a fost pur o coincidență că această piesă anume de implementare a fost necesară doar într-un singur joc Desigur, dacă cercetătorii ar ști dinainte că această parte a "creierului" implementează adăugarea și apoi ar începe să deterioreze tranzistorii individuali, ar avea mai mult sens Dar în neuroștiința reală, am de asemenea absolut nu pot izola funcții atât de simple, de bază Jonas și Cording folosesc alte metode des folosite în neuroștiința modernă (sunt deja mai complexe și nu le vom explica în detaliu aici), cu succes la fel de variabil: uneori obțin concluzii corecte, dar nu mai puțin des obțin unele greșite și nu există nicio modalitate de a distinge "neuroștiința Atari" nu dă unul de celălalt Un alt exemplu care arată complexitatea enormă a studierii și modelării proceselor de gândire reale este cât de dificil este pentru oamenii de știință să înțeleagă cu adevărat, dacă nu să înțeleagă, atunci cel puțin să simuleze chiar și cele mai simple sisteme de neuroni De exemplu, foarte recent s-a cunoscut un succes important pe această cale: proiectul OpenWorm [ , ] a început să lucreze la simularea sistemului nervos al nematodului C elegans Acest vierme este unul dintre cele mai bine studiate organisme din biologia modernă A devenit pentru genetica modernă cam la fel cum a fost musca Drosophila pentru cea clasică; au fost publicate mii de lucrări despre el, există chiar și o conferință specială numită Genetica C elegans și aproape toate mecanismele existenței sale simple de nematod sunt cunoscute de multă vreme oamenilor de știință Proiectul OpenWorm și-a propus să realizeze un model destul de fiabil al tuturor celor de celule ale C elegans și a decis să înceapă prin a-și modela complet sistemul nervos și modul în care acesta duce la mișcările viermelui Acest sistem este format din neuroni (unul dintre cele mai simple sisteme nervoase din lume) și de celule din fibre musculare Proiectul open source progresează bine, dar nu a fost atât de ușor pe cât pare: coordonatorul proiectului Stephen Larson a recunoscut în că sunt "doar - % din drum până acum" Nu avem prea multe îndoieli cu privire la succesul proiectului OpenWorm, chiar dacă se mișcă mai lent decât și-ar dori autorii săi Povestea lui arată destul de clar că suntem încă foarte departe de a înțelege sistemele nervoase la scară mai mare, ca să nu mai vorbim de creierul uman Dar nu poți interzice să visezi: în , Uniunea Europeană a alocat , miliarde de euro proiectului Henry Markram cu Limitele neuroștiinței: ce știm cu adevărat? numit modest Nitup Brain Project Proiectul a planificat să construiască un model computerizat al întregului creier uman în ansamblu, cu toate miliardele sale de neuroni și trilioane de sinapse Markram, desigur, nu este un escroc care s-a păcălit în încrederea celor care iau decizii cu privire la viitorul științei europene, ci un neuroștiință strălucit Modelarea creierului este vechiul său vis, proiectul întregii sale vieți; el conducea deja proiectul Blue Brain de succes, construind un model pe computer al unei mici bucăți de creier de șobolan (o coloană a neocortexului) Dar totuși, obiectivul NVR în acest moment este poate prea ambițios; Nu este de mirare că proiectul, care a început cu mare furie, a fost aspru criticat un an mai târziu din cauza managementului defectuos, iar din Markram a fost îndepărtat de la conducere, iar întreaga inițiativă a fost serios restructurată Iar rețelele profunde în sine, despre care vom vorbi în această carte, nu încetează să-i uimească pe cercetători Deși în acest caz oamenii înșiși au programat acest "aparat de gândire" și știu cu fermitate cum funcționează fiecare "neuron" specific al rețelei, există lucrări dedicate studierii literalmente a proprietăților rețelelor neuronale profunde, ca și cum ar fi un obiect natural dat nouă pentru studiu (de fapt, sunt așa, cu singura diferență că reprezintă totuși o abstractizare matematică) De exemplu, binecunoscuta lucrare [ ] descrie modul în care rețelele care recunosc imagini (chiar și imagini simple, cum ar fi numerele scrise de mână alb-negru) pot fi păcălite cu micro-modificări care nu afectează percepția umană Rețeaua profundă antrenată aici acționează ca o "cutie neagră", ale căror proprietăți interesante încercăm să le înțelegem Vom vedea exemple ale acestei abordări în această carte Înseamnă asta că nu știm nimic despre creier și orice încercări de a face analogii între ceea ce fac rețelele neuronale și modul în care funcționează creierul sunt complet nepotrivite? În opinia noastră, deloc Desigur, cunoștințele noastre despre creier nu sunt foarte detaliate, iar rezultatele cercetărilor asupra modului în care funcționează rețelele profunde nu pot fi transferate direct în funcționarea creierului uman (și este mai bine să ne ferim de creierul de șobolan) - există prea mult multe care ne sunt încă de neînțeles Da, și stabilirea unui obiectiv de a modela creierul uman cât mai precis posibil cu o rețea neuronală nu este poate cea mai bună idee Totuși, toate acestea nu ne interzic deloc să ne inspirăm din modul în care funcționează creierul, să folosim ideile arhitecturale venite din neuroștiință pentru a îmbunătăți performanța rețelelor neuronale În această carte, vom vedea câteva paralele foarte bune între algoritmii și arhitecturile utilizate în rețelele neuronale și înțelegerea neuroștiinței moderne a modului în care funcționează creierul nostru Trebuie doar să înțelegeți că rezultatul aici în acest moment nu poate fi decât modele mai reușite pentru rezolvarea unor probleme aplicate specifice Cel mai probabil, încă nu ne-am maturizat la sarcina de a "replica arhitectura creierului uman" Cu toate acestea, multe alte sarcini sunt deja destul de accesibile! În secțiunea finală a acestui capitol, vom oferi o scurtă privire de ansamblu asupra de ce sunt capabile în prezent rețelele neuronale profunde și vom vorbi despre sarcini care nu sunt încă disponibile pentru ele treizeci Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc Strălucirea și sărăcia rețelelor neuronale moderne Chiar dacă ne abținem de la o astfel de sferă universală, ar trebui să luăm în considerare diversitatea manifestărilor iubirii Nu numai că un bărbat iubește o femeie, dar o femeie iubește un bărbat; iubim și arta și știința, o mamă își iubește copilul, iar un credincios îl iubește pe Dumnezeu X Ortega y Gasset Schițe despre dragoste Și acum diapozitivele Glumă Deci, am văzut ce probleme încearcă să rezolve învățarea automată Întreaga carte va fi dedicată modului în care rețelele neuronale le tratează Dar înainte de a ne arunca în miezul problemei și de a începe să vorbim despre matematica rețelelor neuronale, am decis să motivăm cititorii, și pe noi înșine, cu o scurtă prezentare a celor mai izbitoare aplicații ale rețelelor neuronale profunde, precum și o poveste despre acestea limitări și perspective de viitor Deci, pentru ce sunt folosite astăzi rețelele neuronale, unde cele mai izbitoare succese au fost deja obținute și unde mai este mult de lucru? Prima aplicație industrială semnificativă a rețelelor neuronale profunde moderne, care a confirmat că revoluția învățării profunde începe într-adevăr să schimbe ireversibil peisajul învățării automate și, într-adevăr, lumea din jurul nostru, au fost progresele în recunoașterea vorbirii Structura unui dispozitiv de recunoaștere a vorbirii cu drepturi depline arată astfel: ) în primul rând, semnalul sonor este convertit în semne de tip special; ) apoi aceste semne sunt transformate în ipoteze care oferă opțiuni pentru foneme specifice pentru fiecare fereastră din semnalul sonor; ) apoi ipotezele despre foneme sunt combinate în ipoteze despre cuvintele rostite și nu numai procesarea sunetului în sine, ci și modelele de limbaj participă deja la alegerea dintre ele Înainte de rețelele profunde, primii doi pași ai acestui proces arătau astfel: în primul rând, semnalul audio a fost convertit în așa-numitele caracteristici MFCC , fonemele din acestea erau recunoscute folosind modele Markov ascunse [ ], iar modelele de limbaj erau de obicei netezite distribuții de n-grame, adică modele , care estimează probabilitatea cuvântului următor dat fiind mai multe anterioare [ ] (vom vorbi despre modele de limbaj în detaliu în secțiunea ) MFCC înseamnă coeficienți cepstrali de frecvență mel, adică trebuie să luați mai întâi transformata Fourier din semnal, obținând spectrul, apoi să mergeți la logaritmii amplitudinilor frecvenței pe scara mel și apoi să luați transformata Fourier inversă din aceste logaritmi, obținând cepstralul (acest cuvânt s-a dovedit a fi primele patru litere ale cuvântului "spectru") [ ] Strălucirea și sărăcia rețelelor neuronale moderne Rețelele profunde au început prin înlocuirea dispozitivului de recunoaștere bazat pe modelul Hidden Markov Mai mult, a devenit rapid clar că caracteristicile MFCC ar putea fi îmbunătățite și prin învățare: nu, rețelele nu pornesc încă direct de la semnalul audio brut, dar reprezentările alimentate în sistemele moderne de recunoaștere sunt mult mai "brute" decât MFCC [ ] Primele astfel de studii bazate pe rețele profunde cu preînvățare nesupravegheată au apărut în jurul anului (vezi recenzii [ , ]), iar până în acest lucru a dus la faptul că toți cei mai mari jucători de pe piața de recunoaștere a vorbirii au trecut la rețelele neuronale : Microsoft [ ], Google [ ] și IBM [ ] Principalele rezultate aici au fost obținute mai întâi datorită faptului că extragerea caracteristicilor pentru decodoare bazate pe modele Markov ascunse putea fi "separată" de decodoarele în sine și dată rețelelor profunde, adică la început a fost în mare parte învățare nesupravegheată Dar în curând au existat rezultate inovatoare despre recunoașterea de la capăt la capăt, adică complet de la început până la sfârșit cu un profesor [ ], iar acum practic toate proiectele de recunoaștere a vorbirii, inclusiv asistenți virtuali precum Google Now și Apple Siri, lucrează la rețele neuronale profunde rețele Acest lucru este legat și de analiza muzicii: deși succesul acolo nu este atât de impresionant, cele mai recente modele de recunoaștere și generare a muzicii funcționează și pe rețele neuronale profunde [ ] După discurs, a venit timpul pentru procesarea imaginilor Mai exact, așa a fost întotdeauna: încă din anii , în grupul lui Jan LeCun, imaginile au fost prelucrate tocmai de rețelele neuronale Prima decolare a rețelelor neuronale convoluționale datează din aceeași perioadă, o arhitectură specială care este excelentă pentru procesarea exactă a intrărilor precum imaginile; vom dedica capitolul rețelelor convoluționale [ , ] În general, acesta este un exemplu rar de domeniu în care rețelele neuronale nu au dispărut niciodată complet din vedere Cu toate acestea, după începutul revoluției învățării profunde, progresul în procesarea imaginilor s-a accelerat, de asemenea, dramatic În - , rețelele convoluționale profunde au câștigat o serie de competiții în recunoașterea caracterelor [ ] și chiar recunoașterea video de la camerele de securitate [ , ] În plus, în , au apărut primele implementări de rețele neuronale pe GPU-uri [ ], care au dat un impuls uriaș tuturor cercetărilor legate de rețelele convoluționale (plăcile video pentru rețelele convoluționale sunt deosebit de utile) Și așa a început: în , rezultatele de lungă durată privind setul de date clasic de recunoaștere a cifrelor scrise de mână MNIST au fost serios depășite (vom vorbi despre asta în secțiunea și multe exemple vor fi legate de el), iar câțiva ani mai târziu au aparut primele sisteme care recunosc imaginile mai bine, decat oamenii! În , rețelele convoluționale profunde recunoașteau mai bine semnele de circulație în fotografii decât oamenii [ , ], ceea ce este foarte important pentru conducerea automată, iar din , Facebook recunoaște chipurile prietenilor noștri, precum și noi înșine [ , ] ] În zilele noastre, cele mai profunde rețele sunt tocmai rețele convoluționale pentru procesarea imaginilor sau video; pot avea câteva sute de straturi Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc Realizările rețelelor neuronale profunde în învățarea prin consolidare sunt, de asemenea, greu de supraestimat Rețelele profunde s-au dovedit a fi foarte utile, deoarece oferă o "cutie neagră" universală care poate aproxima funcția de "estimare a poziției" Chiar și primele progrese semnificative în învățarea prin întărire la sfârșitul anilor se bazau deja pe rețele neuronale Cel mai recent succes răsunător al rețelelor profunde în învățarea prin întărire este AlphaGo de la DeepMind, care a reușit să-l învingă pe unul dintre cei mai buni jucători din lume la Go, unul dintre ultimele jocuri clasice de informații complete care era considerat extrem de dificil pentru un computer ; Vom discuta acest lucru în detaliu în capitolul Pe lângă jocuri, există, desigur, și aplicații "mai serioase" (între ghilimele, pentru că jocuri precum Go sau StarCraft sunt, după cum înțelegeți, cu adevărat foarte serioase) Deci, învățarea profundă își găsește deja aplicație într-un alt domeniu tradițional de învățare prin întărire - robotica În primul rând, rețelele profunde pot fi folosite pentru a procesa semnale, în special cele vizuale, pentru a ajuta robotul să înțeleagă mediul înconjurător De exemplu, așa sunt utilizate rețelele profunde în mașinile cu conducere autonomă, care sunt acum dezvoltate cu putere și principal nu numai de Tesla și Google, ci și de alte preocupări majore din domeniul auto și chiar de Yandex Rețelele profunde pot fi utilizate și direct aici De exemplu, în lucrarea recentă a cercetătorilor de la NVIDIA, o rețea convoluțională profundă a primit ca intrare o imagine de la o cameră instalată pe o mașină, iar ieșirea a primit comenzi directe de direcție; și totul părea să se rezolve [ ] În al doilea rând, rețelele profunde pot fi utilizate și în învățarea prin consolidare pentru robotică [ , ]; vom discuta acest lucru în Secțiunea Dar, în unele domenii, rețelele neuronale încă, ca să spunem ușor, mai au loc de îmbunătățire De exemplu, deși marile progrese în domeniul sarcinilor de procesare a limbajului natural sunt neîndoielnice și vom dedica un capitol separat acestor sarcini, nu este încă clar când computerul va învăța în sfârșit să citească efectiv, adică să prelucreze informațiile cuprinse în text De exemplu, sistemele moderne de răspuns la întrebări de până acum pot înțelege doar povești foarte simple și pot răspunde la întrebări precum "Vasya a luat o carte; Vasia s-a dus la bucătărie; Vasia luă un baton de ciocolată și se întoarse în cameră; unde este cartea acum? Este încă foarte, foarte departe de nivelul uman Apropo, iată un exemplu viu al faptului că este foarte ușor să scrii astfel de recenzii în același timp - aplicațiile pentru rețele profunde sunt o duzină, oriunde ai săpa, va fi interesant - și foarte dificil - ca Ahile cu broasca testoasa: nu ajungi niciodata sa termini de scris, tot timpul apare ceva nou Și acum, urma să vorbim despre faptul că principalul joc clasic pe care computerele încă nu pot învinge oamenii este pokerul (no-limit Texas hold'em, mai exact, pentru că jocurile cu limită există de ceva vreme) ) Dar, la sfârșitul lui ianuarie , au apărut știri despre programul Libratus, care a învins cu mare încredere o echipă de patru oameni care se numără printre cei mai buni profesioniști online din lume [ ], iar apoi a apărut modelul DeepStack, care este deja fără îndoială bazat pe rețele neuronale profunde [ ] Iar cercetătorii de la DeepMind au menționat StarCraft drept următorul obiectiv - în mod ciudat, acum, la începutul lui , oamenii încă joacă mult mai bine într-un joc pe computer cu o cantitate considerabilă de micromanagement Strălucirea și sărăcia rețelelor neuronale moderne Care este diferența dintre sarcina de a înțelege un text și sarcina de a recunoaște semnele de circulație? Ce lipsește din rețelele neuronale moderne? Este posibil să le aducem la nivelul uman de înțelegere și, dacă da, cum? Într-o lucrare recentă [ ], oamenii de știință cognitiv (dintre autori, în special, cunoscuți cognitiviști și specialiști în inferența bayesiană Joshua Tennenbaum și Samuel Gershman) au încercat să răspundă la aceste întrebări Încep prin a evidenția diferența dintre modul în care o persoană învață și modul în care programele o fac, chiar și în cazurile de succes O persoană are nevoie aproape întotdeauna de mult mai puține date de antrenament pentru a învăța cu succes: de exemplu, pentru a stăpâni unul dintre jocurile Atari, rețeaua profundă necesită aproximativ o mie de ore de experiență; acesta a fost un pas foarte luminos către dezvoltarea învățării prin întărire profundă [ ] Și pentru o persoană, chiar și până acum complet nefamiliarizată cu jocul, pentru a repeta aceste rezultate, este suficient să urmărească YouTube câteva minute pentru a înțelege ce trebuie făcut, apoi să se joace încă o jumătate de oră pentru a transforma înțelegerea într-un pricepere Și în sarcina de recunoaștere a caracterelor (MNIST, setul de date standard pentru recunoașterea cifrelor, am menționat deja și va fi exemplul central în această carte), de obicei este nevoie de doar una sau două imagini pentru ca o persoană să înceapă să recunoască un personaj nou, chiar și sub alte forme și cu distorsiuni grave De ce oamenii învață mult mai bine? În primul rând, o persoană în copilăria timpurie are o înțelegere a mai multor domenii cheie care sunt extrem de importante pentru funcționarea normală - ceea ce se numește cunoștințe de bază (cunoștințe de bază) [ ] Pe lângă înțelegerea operațiilor cu numere și mulțimi și a navigației în spațiu, [ ] subliniază în mod special două componente care deosebesc o persoană vie de rețelele neuronale artificiale Fizica intuitivă, înțelegerea modului în care funcționează lumea fizică din jurul nostru Bebelușii încep rapid să înțeleagă lumea fizică din jurul lor Până la șase luni, copilul înțelege deja bine constanta obiectelor lumii fizice, că trebuie să se miște continuu și să nu-și schimbe forma instantaneu și chiar să facă distincția între obiectele solide și lichide [ ] Și până la vârsta de un an, bebelușii stăpânesc cu încredere concepte precum inerția, sprijinul, capacitatea unor obiecte de a fi conținute în altele etc [ , ] Oamenii de știință nu sunt siguri cum funcționează totul la oameni, dar, conform ideilor moderne, fizica intuitivă este ceva ca un raționament logic bazat pe un model de simulare fizică, ca un model fizic într-un joc pe calculator [ ] Acest model, desigur, este extrem de aproximativ, nu efectuăm calcule reale, dar este suficient de precis pentru concluziile de zi cu zi și, cel mai important, este capabil de generalizări foarte puternice și de transfer la noi intrări vizuale Dar nu este încă clar cum să transmitem această înțelegere modelului de învățare Lucrările recente ale cercetătorilor de la Facebook AI Research [ ] au început să folosească rețelele neuronale pentru a dezvolta o astfel de intuiție, dar aici, poate, este încă destul de departe chiar și de primii pași ezitant ai unui copil Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc Psihologie intuitivă', aici lucrurile sunt și mai interesante Copiii, chiar și bebelușii, înțeleg foarte repede că unele entități din lumea din jurul lor au voință și acționează în urmărirea propriilor obiective Mai mult decât atât, copiii care au deja un an pot distinge perfect între aceste scopuri și acțiuni pentru a le atinge [ ] și chiar pot face niște rudimente ale judecăților morale, înțelegând când agenții "răi" îi împiedică pe cei "buni" să-și atingă obiectivele "bune" [ ] ] Este un astfel de raționament care ne permite ție și mie să învățăm rapid un joc pe computer, pur și simplu observând ceea ce fac alții și realizând ce obiective urmăresc S-ar putea să nu-l vezi niciodată pe Mario murind atunci când este confruntat cu o țestoasă - doar privind faptul că un jucător cu experiență evită sau ucide țestoase tot timpul, vei înțelege că acesta este un inamic și trebuie să-l faci așa De unde vin toate acestea încă nu este complet clar; poate din teoria bayesiană a conștiinței în curs de dezvoltare în știința cognitivă [ ] (vom începe să vorbim despre abordarea bayesiană a învățării în secțiunea și vom dedica capitolul cercetării neuro-bayesiene moderne), sau poate nu Dar este clar că rețelele neuronale artificiale sunt acum complet incapabile să conducă acest tip de raționament și aceasta poate fi o direcție importantă pentru cercetări ulterioare În al doilea rând, oamenii sunt foarte buni la ceea ce se numește învățare prin transfer: putem construi rapid un model al unui nou obiect sau proces generând abstracțiile potrivite dintr-un număr foarte, foarte mic de exemple de antrenament Se știe că copiii de la trei până la - ani învață în medie - cuvinte noi în fiecare zi Este destul de evident că ei nu pot obține un număr mare de contexte diferite pentru fiecare cuvânt nou și trebuie instruiți din câteva unități de exemple de antrenament Începe acum să aibă loc cercetări cu privire la modul în care se transferă o astfel de învățare (denumită în mod obișnuit învățare unică) către rețelele neuronale și modelele de învățare automată în general Odată cu abordarea bayesiană a învățării, s-au făcut deja unele progrese în probleme precum recunoașterea caracterelor scrise de mână [ ] și a semnalelor de vorbire [ ], dar munca principală aici este încă înainte De exemplu, în Secțiunea vom vorbi despre programul AlphaGo, care a învins recent un campion uman în jocul Go Va putea AlphaGo să joace inteligent un om, cum ar fi Go pe o placă hexagonală sau toroidală? Cu greu Și o persoană care știe să joace Go se adaptează instantaneu și, deși, desigur, nu va atinge imediat aceleași înălțimi în noua versiune, va începe imediat să joace destul de rezonabil În al treilea rând, adevărata piatră de poticnire pentru inteligența artificială este cauzalitatea, adică capacitatea de a recunoaște și evidenția "adevăratele cauze" ale efectelor observate, de a construi modele de procese care ar putea duce la astfel de observații Când o persoană se uită la o fotografie, o anumită narațiune este de obicei creată în imaginația sa pentru a explica ceea ce se întâmplă Există referiri la studii interesante despre exact modul în care copiii învață cuvinte noi [ ], dar de fapt acesta este un raționament destul de evident: doar împărțiți vocabularul unui adult (aproximativ de mii de cuvinte) la cei ani în care se lucrează cea mai mare parte a acestuia afară Strălucirea și sărăcia rețelelor neuronale moderne în imagine ca o poveste secvențială coerentă Și când o rețea neuronală generează legendele foto, nimic din toate acestea nu se întâmplă; se întâmplă adesea ca rețeaua să recunoască corect toate obiectele cheie din fotografie, dar să nu le poată conecta în modul logic corect [ ] Acest lucru, desigur, este de obicei asociat cu fizica intuitivă și psihologia intuitivă menționate mai sus: ele ne ajută să alegem explicația corectă Cercetările psihologice și cognitive arată că cauzalitatea în acest sens poate apărea și la un nivel inferior: de exemplu, teoriile clasice ale percepției vorbirii susțin că ea se explică cel mai ușor prin "inversarea" a ceea ce se aude, recunoașterea mișcărilor vocale tract, care ar putea duce la astfel de sunete [ ] Și, în sfârșit, oamenii sunt mult mai buni la învățare Bebelușii învață relativ lent, dar apoi capacitatea de învățare se "învârte" treptat, iar tu și cu mine învățăm lucruri noi mult mai eficient decât ar permite datele pe care le avem, de exemplu, arhitecturi moderne de rețele neuronale Acest lucru arată că oamenii au limitări foarte puternice, distribuții anterioare, atunci când învață Primii pași în direcția unei astfel de "abstracție" sunt, desigur, deja făcuți De exemplu, este destul de evident că și cele mai diverse sisteme de viziune computerizată pot reutiliza primele nivele de analiză a imaginii, extragerea unor caracteristici de bază care pot rămâne comune pentru imagini foarte diferite (vom vorbi despre aceste niveluri și despre sistemele moderne de viziune computerizată în general în capitolul ) Cu toate acestea, aceștia sunt încă doar primii pași și limitati la domenii specifice de aplicare - aici suntem abia la începutul unei călătorii lungi Ei bine, rețelele neuronale moderne sunt încă foarte departe de inteligența artificială "reala" Dar cei care lucrează în rețea profundă au și un program pozitiv despre cum să avanseze Deci, de exemplu, în [ ], inventatorul celei mai populare metode de reprezentări distribuite a cuvintelor ch'or( ('ec (vom vorbi despre asta în detaliu în capitolul )) Tomasz Mikolov și coautorii săi au încercat pentru a-și prezenta viziunea asupra modului în care rețelele neuronale se pot îndrepta către AI Potrivit lui Mikolov, există două calități principale ale unui intelect "real" care sunt necesare pentru a recunoaște un program ca fiind inteligent: • capacitatea de a comunica astfel încât programul să poată comunica interactiv cu oamenii și să primească informații despre lumea din jurul lor; pentru aceasta, în [ ] se propune folosirea unui singur canal de comunicare de tip general, în care atât agentul de învăţare, cât şi cei care îl antrenează pot scrie mesaje de diverse forme; • capacitatea de a învăța, atât din punct de vedere al învățării în sine, cât și din punct de vedere al motivației pentru această învățare, care ar trebui să vină prin același canal de comunicare cu lumea exterioară sub formă de stimuli pozitivi și negativi (ca în învățarea prin întărire) Pentru a face acest lucru, în [ ] se propune construirea unui ecosistem special pentru agenții de învățare, asemănător unui joc pe calculator Acest ecosistem va Capitolul De la biologie la informatică, sau Trebuie să mergem mai adânc Profesorul (Profesorul), al cărui comportament este controlat complet de către experimentatori, și Studentul (Învățatorul), pe care, de fapt, îl creștem Ei comunică prin canalul de comunicare mai sus menționat, prin care stimulentele (recompensele) sunt transmise și separat pentru comportamentul dorit și nedorit al Studentului Ideea sistemului este că profesorul îi predă în mod constant elevului sarcini de complexitate crescândă: • la început, doar fiți atenți la ceea ce spune Învățătorul și înțelegeți că aceste comenzi și răspunsuri sunt într-un fel legate de recompense ; • apoi dați comenzi în forma corectă mediului, explorați-l și mutați-vă în el (acest mediu poate fi gândit ca o căutare text pe computer de la sfârșitul anilor optzeci: elevul scrie comenzi precum mutați la stânga, deschideți ușa sau priviți în jur și mediul raportează rezultatele și acordă recompense de necesitate); • generalizați echipele individuale, observați modele în ele; de exemplu, selectați o clasă de "obiecte" care pot fi manipulate în același mod, sau o clasă de "comenzi de rotație" în direcții diferite; • apoi învață să urmezi comenzi de nivel superior, cum ar fi "mergi înainte de două ori" sau "găsește un măr"; • treceți la un dialog interactiv cu Profesorul, când puteți cere Profesorului câteva informații necesare executării comenzii (de exemplu, unde este chiar mărul); • și în final, să ajungem la implementarea unor algoritmi reali, adică să înveți cum să trimiți comenzi către mediu cu cicluri și condiții pentru care mediul poate acționa ca un simplu computer Te poți deplasa între aceste "nivele" schimbând structura recompenselor: când Profesorul vede că Elevul a învățat să dea comenzi simple, el încetează să răsplătească pentru orice comenzi corecte și începe să răsplătească doar pe cele care duc la efectul dorit; apoi "efectele dorite" devin mai complicate etc Mikolov și colab scriu că componenta principală a sistemelor care ar putea învăța gândirea abstractă ar trebui să fie memoria pe termen lung într-o formă sau alta; trebuie să poată stoca modele de comportament antrenate de model, să le atribuie etichete (de exemplu, amintiți-vă ce înseamnă "găsiți un măr") și apoi "obține" modelele necesare folosind aceste etichete Este puțin probabil ca rețelele neuronale actuale să fie capabile de acest nivel de abstractizare în învățarea interactivă; sunt necesare idei noi Nu am descris acest sistem atât de detaliat pentru că credem că va duce cu siguranță la crearea unor computere inteligente în viitorul apropiat Dimpotrivă, am dat acest exemplu pentru a clarifica faptul că Rețineți că acest sistem presupune că recompensele sunt definite separat, iar Studentul nu trebuie să înțeleagă că o recompensă pozitivă este bună În general, problema motivației și a stabilirii obiectivelor este încă un punct dureros în inteligența artificială Strălucirea și sărăcia rețelelor neuronale moderne deși modelele moderne de învățare automată fac o mulțime de lucruri uimitoare, depășind treptat o persoană în multe zone anterior inaccesibile unui computer, la o "cutie neagră universală" care ar putea învăța în mod independent să acționeze într-un mediu nou, așa cum o face o persoană, este încă foarte, foarte departe Așa că va trebui să încheiem acest capitol introductiv nu cu o cadență închisă, ci cu o cadență deschisă: în ciuda tuturor succeselor răsunătoare, învățarea automată mai are un drum lung de parcurs și este foarte posibil să depindă de voi, dragi cititori, cât de repede putem de la visele sălbatice ale căutărilor textuale să ajungem la adevărata inteligență artificială A indrazni! capitolul informații preliminare, sau Cursul Young Fighter TL;DR În al doilea capitol, vom oferi o scurtă privire de ansamblu asupra informațiilor preliminare necesare pentru a trece mai departe direct la rețelele neuronale Și anume, ne vom uita la: • Fundamentele teoriei probabilităților, teorema lui Bayes și abordarea probabilistică a învățării automate; • funcții de eroare în învățarea automată și regularizare; • diferența dintre regresie și clasificare, funcții de eroare pentru clasificare; • principala metodă de optimizare în rețelele neuronale este coborârea gradientului; • construirea graficului de calcul și algoritmi de diferențiere pe acesta; • și în final, o introducere practică în biblioteca TensorFlow, pe care o vom folosi pentru exemplele din această carte teorema lui Bayes teorema lui Bayes Lucrarea propune o nouă abordare a unei probleme urgente - educația spirituală și morală a tinerilor Studiul stabilește că aproape toți întemeietorii teoriei probabilității au avut legătură directă sau indirectă cu Sfânta Biserică Este această coincidență coincidență sau justificată? S N Dvoryatkina Rolul matematicii accidentale în educația spirituală și morală a tineretului: căutarea adevărului, Vestnik MGOU, Seria Pedagogie, nr , , p - Credința și probabilitatea sunt foarte apropiate una de alta nu numai filologic K A Chkheidze, dintr-o scrisoare către N V Ustryalov În acest capitol, vom acoperi câteva lucruri fundamentale despre învățarea automată, vom oferi informațiile de bază necesare despre secțiunile de matematică care vor fi necesare pentru a înțelege ce urmează și, de asemenea, vom oferi o introducere practică a bibliotecii TensorFlow, care va fi utilizată în majoritatea exemplelor din carte De fapt, acest capitol nu are legătură directă cu rețelele neuronale în niciun fel, iar cititorul sofisticat îl poate sări cu ușurință fără nicio pierdere a înțelegerii Cu toate acestea, ne vom asuma riscul de a recomanda cititorului puțin mai puțin experimentat să parcurgă totuși acest capitol cu ochii - poate că veți găsi ceva nou aici Primul complot, cel mai important nu numai pentru antrenarea rețelelor neuronale profunde, ci și pentru toată învățarea automată, este o interpretare probabilistică a învățării automate și, în general, o viziune bayesiană asupra lumii din jurul nostru După cum am văzut în capitolul anterior, învățarea automată este știința de a deduce din date de unde provin datele și de a prezice ce date vom întâlni în viitor Este important că este imposibil să tragem concluzii exacte: procesele care conduc la generarea datelor sunt prea complexe chiar și în cele mai simple cazuri Modelele noastre vor conține întotdeauna, inevitabil, o anumită cantitate de incertitudine, iar teoria probabilității este cea care oferă descrierea matematică a incertitudinii și a operațiilor cu mărimi incerte Mai mult, abordarea probabilistică a învățării ne permite adesea nu numai să facem predicții, ci și să evaluăm cât de încrezători suntem în aceste predicții Cel mai simplu exemplu: dacă cunoașteți dinainte toți parametrii aruncării unei monede: viteza inițială, starea aerului înconjurător, distribuția masei etc , atunci teoretic este destul de posibil să-i calculați zborul și destul de sigur prezice cu ce se va ieși Dar este atât de complicat încât nu ezităm să folosim moneda ca un generator de numere aleatoare corecte capitolul Prin urmare, învățarea automată ca știință se bazează pe teoria probabilității Apropo, nu este întotdeauna ușor de observat acest lucru în antrenamentul rețelelor neuronale Mai jos vom vedea că rețelele neuronale pot fi interpretate astfel: introducem câteva funcții obiective destul de logice, iar apoi le optimizăm; asta este tot ceea ce există în probabilități Cu toate acestea, vom vedea în curând că teoria probabilității este încă fundamentul pe care se bazează tot ceea ce se întâmplă, iar o stăpânire stabilă a elementelor de bază ale acestei științe este absolut necesară pentru înțelegerea acestei cărți și a altor cărți despre învățarea automată În acest moment, cititorul, crescut de cursurile universitare clasice de teoria probabilității [ - ], trebuie să fi făcut o strâmbă de neplăcere: definiții pe jumătate uitate ale submulților Borel ale spațiului Rn, algebră și sigma-algebră, probabilitatea ca măsură pe sigma-algebra submultimilor Borel etc , i-au trecut prin cap Si intr-adevar, cand au inceput sa priveasca teoria probabilitatii ca o teorie a masurii, unul dintre cei mai importanti pasi a fost facut catre formalizarea primei: axiomatica lui Kolmogorov este izbitor de similar cu axiomele teoriei măsurii, iar această viziune unificată a făcut posibilă dezvoltarea puternică a teoriei probabilității ca o știință Cu toate acestea, sarcina noastră este mai simplă Pentru a citi această carte și, în general, pentru a înțelege aproape tot ce se întâmplă în învățarea automată modernă (cu excepția, poate, a unora dintre domeniile încă destul de ezoterice ale inferenței bayesiene), este suficient să nu ne amintim întregul curs universitar de teoria probabilității, dar să folosești ceea ce este de obicei în realitate rămâne în cap după ce ai ascultat acest curs Pentru ceea ce urmează, este suficient să înțelegem că: • există variabile aleatoare discrete cu un set finit sau numărabil de rezultate; ei atribuie o probabilitate nenegativă fiecăruia dintre rezultatele lor, iar probabilitățile rezultatelor se adună la unul; clasicul și de fapt singurul exemplu aici este aruncarea zarului; Kolmogorov, Andrei Nikolaevici ( - ) - matematician sovietic, unul dintre cei mai mari matematicieni ai secolului al XX-lea În tinerețe, Kolmogorov a studiat istoria, iar mai târziu i-a plăcut să spună cum a părăsit-o: s-a dovedit că în istorie fiecare concluzie trebuie susținută de mai multe dovezi, iar Kolmogorov "a decis să intre în știință, unde o singură dovadă ar fi suficientă " Și-a început cariera matematică în calcul, a trecut rapid la bazele matematicii, dovedind un rezultat important despre logica intuiționistă, iar apoi a trecut la teoria probabilității Kolmogorov este literalmente creatorul întregii teorii moderne a probabilității; el a fost primul care a formulat axiomatica teoriei probabilităților bazată pe teoria măsurii și a demonstrat o serie de rezultate fundamentale Și toate acestea au fost doar prima decolare a creativității lui Kolmogorov; următorul a venit în anii , când Andrei Nikolaevici a obținut rezultate remarcabile privind sistemele dinamice, mecanica cerească și reprezentarea funcțiilor În informatică, Kolmogorov a propus un nou concept de algoritm și a dezvoltat teoria așa-numitei complexități Kolmogorov nu, câmpurile acestei cărți sunt prea mici pentru toate realizările sale Apropo, Kolmogorov credea în inteligența artificială; în articolul [ ] scria că "posibilitatea fundamentală de a crea ființe vii cu drepturi depline, construite în întregime pe mecanisme (digitale) discrete de prelucrare și control al informațiilor, nu contrazice principiile dialecticii materialiste" teorema lui Bayes • există variabile aleatoare continue unidimensionale al căror set de rezultate este o linie reală R; atunci probabilitățile rezultatelor individuale se transformă într-o funcție de distribuție F(a) = p(x | Ѳ), Ѳ unde arg max# /( ) este valoarea vectorului Ѳ la care se atinge maximul funcției /( ) Și în abordarea bayesiană și învățarea automată modernă, ei caută distribuția posterioară (posterior): p(Ѳ ID) și p(DI Ѳ)p(Ѳ), iar apoi, dacă este necesar, ipoteza maximă a posteriori (ipoteza maximă a posteriori, MAP): Ѳmar = arg maxp( | D) = arg maxp(L> | Ѳ)р(Ѳ) Ѳ Ѳ Semnul oc aici înseamnă "proporționalitate": de fapt, deler( | D) nu este egal cu p(DI )p( ), ci doar proporțional cu acest produs; Pentru a obține distribuția probabilității, trebuie, de asemenea, să normalizați rezultatul Dar deoarece constanta de normalizare fp(D | )p( )d nu depinde de Ѳ, ea poate fi adesea ignorată De exemplu, la maximizarea arg max p( | D) = arg max p( ? | Ѳ)р(Ѳ) Vom folosi adesea această notație Diferența este ușor de observat într-o simplă problemă de inferență: să presupunem că ni s-a dat o monedă potențial necinstită, am aruncat-o de mai multe ori și acum cunoaștem succesiunea rezultatelor aruncărilor Să încercăm să-i determinăm "necinstea" și să prezicem ce va urma Probabilitatea unei anumite secvențe de rezultate ale aruncării monedelor, printre care există doar h cozi și t capete, este unde parametrul Ѳ înseamnă probabilitatea de a obține cozi Este ușor să maximizezi această funcție în raport cu t: ipoteza probabilității maxime va spune că probabilitatea cozilor este egală cu numărul de cozi rostogolite împărțit la numărul de experimente Cu alte cuvinte, asta înseamnă că, dacă iei o monedă necunoscută, o răsturnești o dată și iese cozi, acum te aștepți să iasă mereu cozi, nu? Uneori în machine learning se vorbește despre metode neparametrice; de obicei în astfel de cazuri nu se înțelege că nu au parametri, ci că numărul de parametri pe care îi au nu este cunoscut dinainte și este, de asemenea, un parametru într-un anumit sens teorema lui Bayes Orez O aruncare a unei monede necunoscute: a - distribuție a priori p(Ѳ) - , Ѳ E [ ; ]; b - probabilitatea L( ) = c - distribuția posterioară p(Ѳ) oc Ѳ,Ѳ E [ , ] Se dovedește ciudat De fapt, nu vom ajunge deloc la o astfel de concluzie și, dacă am face-o, aproape sigur nu ar fi confirmat Apropo, chiar și formal acest rezultat este îndoielnic: probabilitatea este egală cu L( ) - Ѳ, iar maximul nu este limitat dacă Ѳ -E su Desigur, există o constrângere "intuitivă": probabilitatea de a obține cozi nu poate fi mai mică de și nu poate fi mai mare de Dar cum să o formalizez? În realitate, chiar și atunci când examinăm o monedă necunoscută, așteptăm deja ceva de la ea în avans; formalizarea așteptărilor noastre este distribuția a priori р(Ѳ) Este înmulțit cu funcția de probabilitate și o netezește În raționamentul nostru, distribuția anterioară este întotdeauna prezentă invizibil, chiar dacă nu este dată explicit, deci este mai bine să o definim în mod explicit Chiar și dintr-un proces complet necunoscut, ne așteptăm, de exemplu, ca pentru acesta toate variantele de probabilități Ѳ să fie la fel de plauzibile: poate că moneda vine întotdeauna cu capul, poate întotdeauna cu cozi, cine știe? Dar și în acest caz, avem o distribuție anterioară, doar că este uniformă pe intervalul [ , ]: faptul că nu avem preferințe pe Ѳ poate fi considerat și o preferință de vreun fel Acest lucru este prezentat în fig : distribuția anterioară p(t) = pentru t E [ , ] (și zero în afara acestui interval) se înmulțește cu probabilitatea L( ) = , iar distribuția posterioară p(t) oct t pentru t E [ , ] și pentru alte Ѳ Mai mult decât atât, dacă aceasta este o monedă pe care tocmai am scos-o din buzunar, avem o încredere destul de puternică că este aproape de echitabil și distribuția anterioară p(Ѳ) este un "clopot" destul de ascuțit, cu maximum Un posibil exemplu de astfel de "clopote" este prezentat în Fig Ca distribuție a priori, am ales distribuția beta Beta( ;a,/ ) = - -^(І - Ѳ)^ , unde B(a, p) (a + p) capitolul Orez O aruncare a unei monede cu distribuție anterioară Beta( , ): a - distribuție anterioară р(Ѳ) = Beta( ; , ); b - probabilitatea b(Ѳ) = Ѳ; c - distribuția posterioară р(Ѳ) = Beta( ; ) oc Beta( ; ) unde Γ este funcția gamma corespunzătoare factorialului pentru numere naturale: Γ(a) = (a - )! Alegerea a fost, desigur, deliberată: distribuția beta este foarte asemănătoare cu funcția de probabilitate a unei monede p(h, t | Ѳ) = h ( - Și dacă înmulțiți unul cu celălalt și normalizați, obțineți beta distributie din nou: Beta( ; a, / ) x p(h, t \ Ѳ) | Ѳ)р(Ѳ) Ѳ Ѳ (rețineți că după luarea verificării arg, semnul proporționalității oc se transformă pur și simplu în egalitate: numitorul formulei Bayes în acest caz nu depinde de Ѳ și nu este necesar să se țină seama de el în timpul optimizării), sau în cel mai rău caz , doar plauzibilitate: Ѳм = arg maxp(L> | Ѳ) ѳ De obicei, vom presupune că fiecare punct de date a fost generat independent de procesul descris în model, adică probabilitatea ca setul de date D să fie un produs mare pentru toate punctele sale: p(P I ) = P p(d I ) Prin urmare, este adesea convenabil să treceți la logaritmi și să maximizați suma în locul produsului (logaritmul este o funcție monotonă, iar arg max din nou nu se schimbă): Ѳmar = arg maxp(L> | )p( ) = arg maxp( ) ГГ p(d | ) = Ѳ Ѳ deD = arg max I logp( ) + V' logp(d | ) I / / \deD/ O rețea neuronală artificială poate fi, de asemenea, prezentată ca un exemplu de astfel de modele; nu o vom face încă în mod oficial - la urma urmei, aceasta va fi întreaga carte - dar cu siguranță vom avea nevoie de o viziune probabilistică a lucrurilor când vorbim despre regularizarea în rețelele neuronale în capitolul Vom reveni la inferența bayesiană și vom vorbi mult mai multe despre modelele probabilistice moderne în Capitolul Dar acolo, rețelele neuronale sunt mai probabil să ajute la deducerea modelelor probabilistice, și nu invers Pentru a studia rețelele neuronale în sine, minimul necesar pe care l-am conturat aici ne va fi suficient Iată un rezumat de reținut când citiți această carte sau orice alt text de învățare automată: • un model matematic în învățarea automată este de obicei o sarcină a unei distribuții de probabilitate pe date și parametrii p( , D); Funcții de eroare și regularizare • uneori distribuția comună a parametrilor și datelor p(Ѳ, D) este modelată direct, dar mai des - sub forma produsului probabilității p(D | Ѳ) și distribuția anterioară p(Ѳ); • distribuţia posterioară p(Ѳ | D) prin teorema lui Bayes poate fi obţinută ca produs (normalizat) p( )p(D | Ѳ); • Sarcina învățării automate este, de obicei, de a găsi și/sau de a maximiza distribuția p(Ѳ | D), este important să înțelegem care parametri se potrivesc cel mai bine cu datele disponibile și cu antecedentele noastre și apoi, dacă este necesar, să facem noi predicții din distribuția predictivă p(x | D) = f@p(x | Ѳ)р(Ѳ | D)d ; • în realitate, toate acestea se transformă de obicei într-o problemă de optimizare, optimizând de obicei logaritmul logp(Z) | Ѳ) + logp( ), care constă din log-probabilitatea reală a modelului și a regulatorilor Vom discuta acum pe scurt problemele de optimizare care apar aici Funcții de eroare și regularizare Când nu faci greșeli, nu te mai perfecționezi J Martin Sărbătoare pentru corbi Care dintre aceste semne constituie ceea ce este recunoscut drept "greșeală" nu este încă decis, dar, în orice caz, îndoiala este deja permisă M E Saltykov-Șcedrin Greșeli de tineret Comedie de Peter Epteller Am aflat că majoritatea problemelor de învățare automată se reduc la rezolvarea uneia sau a alteia probleme de optimizare Vom avea o discuție detaliată despre exact cum să facem această optimizare în Capitolul , dar deocamdată trebuie să trecem puțin înainte și să vorbim despre ideea principală a ceea ce se întâmplă Se întâmplă adesea ca prezentarea din carte să fie construită cel mai bine în spirală Acum vom prezenta foarte pe scurt metoda principală de optimizare - metoda coborârii gradientului, apoi ne vom uita la ce funcții, de fapt, am dori să optimizăm, iar după câteva capitole vom reveni la algoritmii înșiși Apoi vom discuta în detaliu tot felul de modificări și îmbunătățiri ale metodei de coborâre a gradientului, care sunt de obicei folosite în antrenamentul rețelelor neuronale moderne În acest caz, se va dovedi că la începutul capitolului vom repeta parțial ceea ce veți citi aici, dar acesta ni se pare răul mai mic Deci, despre coborârea în gradient Aproape toate celelalte metode de optimizare pe care le vom lua în considerare se vor baza pe aceasta Esența operei sale este cel mai ușor ilustrată dacă ne imaginăm suprafața tridimensională a unei funcție a două argumente; intuitiv această suprafață este valoarea funcției capitolul erori din ponderile modelului pe care îl antrenăm Acum imaginați-vă că valoarea curentă a parametrilor este o minge mică situată pe o suprafață dată Sarcina noastră este să găsim minimul funcției de eroare, iar această sarcină corespunde exact cu ceea ce mingea ar dori să facă sub influența gravitației - rostogolește în cea mai adâncă gaură Acum sarcina noastră este să găsim direcția în care mingea se va rostogoli într-o astfel de situație Cu o minge adevărată, totul este destul de simplu: este clar că (la viteza inițială zero) se va rostogoli în direcția în care suprafața are cea mai mare pantă descendentă Și vorbind formal - în direcția direct opusă gradientului de suprafață Să ne amintim pe scurt despre ce este vorba Dacă funcția care determină suprafața pe care se află bila se notează cu Е(Ѳ) = Е(Ѳ±, Ѳз, ■ ■ ■, Ѳп), atunci gradientul ei VE este (amintim cursurile de analiză matematică) vectorul derivate ale unei funcții a mai multor variabile pentru fiecare dintre componente: DE DI dѲp Cu alte cuvinte, gradientul este direcția în care funcția crește cel mai rapid Aceasta înseamnă că direcția în care scade cel mai rapid este direcția opusă gradientului, adică -\ qE Aceasta este intuiția din spatele metodei de coborâre în gradient Trebuie doar să ținem cont de faptul că nu avem nicio modalitate de a simula cu acuratețe procesul continuu al unei mingi care se rostogolește în jos, așa că discretizăm timpul și mergem pas cu pas Notând cu Ѳ/ vectorul parametrilor modelului la pasul t și cu E funcția de minimizat, putem scrie vectorul de actualizare a parametrilor la pasul t astfel: Щ \u d et \u d dt-r + ut Să scriem chiar asta în pseudocod pentru viitor: și = - learning rate * grad theta += u Acest lucru, desigur, ridică imediat multe întrebări Primul este cum se calculează exact gradientul în fiecare punct pentru o rețea neuronală cu multe greutăți, este dificil Sfat util de la Geoffrey Hinton, unul dintre cei mai importanți experți în rețele neuronale din lume: odată ce ați învățat cum să vizualizați graficul unei funcții cu doi argumente, adică o suprafață D, este ușor să extindeți această înțelegere intuitivă la suprafețele n-dimensionale Pentru a face acest lucru, este suficient să vă imaginați o suprafață tridimensională și să vă pronunțați clar: "en" Funcții de eroare și regularizare legate între ele; deocamdată, vom presupune că putem face acest lucru și gradientul este cunoscut la fiecare pas Al doilea este cum să alegeți rata de învățare și dacă trebuie schimbată în timp (desigur că trebuie!); despre asta vom vorbi și mai târziu, în capitolul În același loc, vom lua în considerare diverse modificări care vor îmbunătăți semnificativ și vor accelera coborârea în pante Acum să luăm în considerare o întrebare mult mai fundamentală: ce fel de funcție E vom optimiza? De unde va veni? În secțiunea anterioară, am spus că probabilitatea posterioară este de obicei optimizată: pW П p(d I ), deD sau (mai frecvent) logaritmul său: logp( ) + Y logpț/ZI ) deD Care este această funcție în sarcinile reale? Ce presupuneri probabilistice se fac de obicei și la ce probleme de optimizare duc acestea? Să începem cu cel mai simplu caz: problema clasică de regresie liniară Vom construi un model liniar al datelor disponibile Luați în considerare această funcție: p y(x, w) - W + ^ X W ~ xw =L pentru vectorul intrărilor x = ( ,^ , • • • ,xp) Rețineți că aici am introdus o interceptare în vectorul de greutate prin adăugarea unei alte dimensiuni fictive, a cărei intrare este întotdeauna egală cu una - aceasta este doar o redenumire care se face adesea pentru comoditate și scurtarea notației Astfel, având în vedere vectorul intrărilor xm = (ad, , xp), vom prezice ieșirea y după cum urmează: R y(x) - WQ + Y = ^Tw J= Să încercăm mai întâi să raționăm fără nicio teorie a probabilității Cum să găsiți parametrii optimi w* din datele de antrenament D - { (xț, Ui)}^=^ Pentru a face acest lucru, este logic să alegeți o funcție de eroare Așa-numita metodă a celor mai mici pătrate este adesea folosită, în care suma abaterilor pătrate ale valorilor prezise de la cele adevărate este minimizată: N RSS(w) = ~x~iw) - I= capitolul În acest caz particular, apropo, problema minimizării RSS(w) poate fi rezolvată exact - funcția de eroare se dovedește a fi convexă, în plus, pătratică, iar pentru a-și găsi minimul, este suficient să rezolvi un sistem liniar ecuații Să scriem funcția de eroare: RSS(w) - (y - Â'w)T (y - Xw), unde X este o matrice N x p Diferențiem față de w și presupunând că matricea Xx X este nedegenerată, obținem: W* = (XlX^X^y Puteți găsi, de asemenea, w* cu coborâre în gradient, care funcționează întotdeauna excelent și pentru funcțiile convexe Dar de unde a venit această idee ciudată? De ce am minimizat suma abaterilor pătrate și nu suma modulelor, a patra puteri sau exponențiale? Este într-adevăr doar pentru că era mai convenabil să cauți un minim? Pentru a răspunde la aceste întrebări, să vorbim despre regresia liniară bayesiană Pentru a face acest lucru, trebuie să introduceți ipoteze probabilistice Și ipoteza de bază în modelul de regresie liniară este că zgomotul (eroarea în date) este distribuit în mod normal cu centrul la zero, adică variabila i pe care o observăm se obține astfel: t = ?/(x, o) + b, unde e ~ A/\ , a ) Cu alte cuvinte: p(t I x,w, și este egală cu zero doar când distribuțiile pnq coincid aproape peste tot Cum se utilizează distanța Kullback-Leibler pentru probleme de clasificare? Informal vorbind, vom încerca să calculăm cât de mult este similară sau diferită distribuția cazului de testare generată de clasificator (să-i spunem q) de distribuția "adevărată" dată de date (să-i spunem p) Și formal, să începem cu o clasificare binară, în care datele de intrare au forma (x, y), ei bine, este nevoie de doar două valori; să le numim și Să introducem distribuția datelor într-un mod destul de banal: p(y = ) = y, ap(y = ) = - y; aceasta înseamnă că în distribuția datelor toate valorile vor fi egale fie cu , fie cu Și distribuția clasificatorului va fi ceea ce se va dovedi a fi; clasificatorul încearcă să estimeze probabilitatea unui răspuns pozitiv p(y | D, x) și o vom considera probabilitatea q(y) În engleză, nu este nicio problemă aici; și în rusă se spune uneori "divergența Kullback-Leibler" sau "divergența Kullback-Leibler", dar "distanța" este folosită mai des Exercițiu de bună înțelegere: încercați să dovediți formal această proprietate bh capitolul Vom minimiza nu tocmai distanța Kullback-Leibler, ci așa-numita entropie încrucișată: H(p, q) = Ep[-logg] = -J p(?/)logg(?/) v Acest lucru va fi mai convenabil pentru minimizare, iar entropia încrucișată H(p, q) este legată în cel mai direct mod de distanța Kullback-Leibler: KL(P||Q) = £p(îz)log^g = = '^pi yjlogpty) - log ()d d'GChildren(g) Asta e tot! Când ajungem la originile graficului, la vârfurile xi, , xn, vom obține derivate parțiale, adică doar calculăm gradientul Vzh/ Această abordare se numește algoritm de backpropagation (backpropa-gation, backprop, bprop) deoarece derivatele parțiale sunt calculate în direcția opusă muchiilor graficului de calcul Și algoritmul pentru calcularea funcției în sine sau a derivatei în raport cu o variabilă, ca în Fig , b, se numește algoritm de propagare directă (fprop) Și ultima notă importantă: fiți atenți că tot timpul, în timp ce discutam despre grafice computaționale, diferențiale, gradienți și altele asemenea, noi, de fapt, nu am menționat niciodată serios rețelele neuronale! Și într-adevăr, metoda de calcul a derivatelor/gradienților dintr-un grafic de calcul în sine nu are absolut nimic de-a face cu rețelele neuronale Este util să ținem cont de acest lucru, mai ales în chestiuni practice, la care vom trece în secțiunea următoare Cert este că bibliotecile Theano și TensorFlow, despre care vom discuta mai jos Și despre practică: o introducere în TensorFlow și Keras și pe care se realizează cea mai mare parte a învățării profunde sunt, în general, biblioteci pentru diferențierea automată, și nu pentru antrenarea rețelelor neuronale Tot ce fac ei este să vă permită să configurați un grafic de calcule și al naibii de eficient, cu paralelizare și transfer pe plăcile video, să calculați gradientul din acest grafic Desigur, bibliotecile cu design standard de rețele neuronale pot fi implementate "pe deasupra" acestor biblioteci, iar oamenii fac acest lucru tot timpul (vom lua în considerare Keras mai jos), dar este important să nu uităm ideea de bază a diferențierii automate Se poate dovedi a fi mult mai flexibil și mai bogat decât un simplu set de construcții neuronale standard și se poate întâmpla să utilizați TensorFlow cu mare succes, deloc pentru antrenarea rețelelor neuronale Și despre practică: o introducere în TensorFlow și Keras Nu avea idee despre ce face și ce trebuie să facă, dar în același timp știa perfect că trebuie să aranjeze totul și să le aranjeze imediat Avea o minte practică de femeie D N Mamin-Siberian trei capete În ultimii ani, antrenamentul în rețelele neuronale a evoluat într-o disciplină extrem de proiectată Au apărut mai multe biblioteci foarte convenabile care permit literalmente în câteva rânduri de cod să construiască un model de rețea neuronală (arbitrar profundă), să formeze un grafic de calcul pentru acesta, să calculeze automat gradienții și să efectueze procesul de învățare, iar acest lucru se poate face atât pe procesorul și complet transparent Astfel, prin schimbarea câtorva linii sau câteva taste la pornire - pe o placă video, ceea ce de obicei accelerează învățarea de zeci de ori În fiecare an, aceste biblioteci devin din ce în ce mai convenabile, sunt lansate versiuni noi ale celor existente, precum și produse software complet noi Există biblioteci de uz general care pot crea orice grafic de calcul și suplimente specializate care implementează diferite componente ale rețelelor neuronale: straturi obișnuite, straturi convoluționale, recurente, recurente din LSTM sau GRU, algoritmi moderni de optimizare Toate acestea pot de obicei fii "atins" mâini", de implementat și predat acasă, fără procese de dezvoltare lungi și dureroase Prin urmare, o carte modernă despre învățarea profundă nu se poate lipsi de exemple de implementări software specifice și de cod: la urma urmei, scriem această carte pentru ca nu numai să înțelegeți câteva noi abstracții pentru dvs , ci și să începeți să utilizați cu adevărat rețelele neuronale în munca ta Suntem conștienți că aceste secțiuni ale cărții sunt cele mai trecătoare și cele mai rapide capitolul sunt învechite și cu siguranță nu îi sfătuim pe cititorii noștri din anii și ulterior să folosească cartea ca ghid practic pentru bibliotecile TensorFlow sau Keras, deși ideile generale ale implementărilor prezentate aici este puțin probabil să se schimbe Și încă o notă Toate bibliotecile pe care le folosim pentru implementarea rețelelor neuronale din această carte au o interfață principală cu limbajul de programare Python, iar toate exemplele de cod vor fi, de asemenea, în Python Acest limbaj a devenit standardul de facto în învățarea automată modernă și procesarea datelor , deși există și alte exemple în rețelele neuronale - de exemplu, biblioteca Torch oferă să descrie structura rețelelor sub formă de script-uri Lua Rețineți că acest lucru nu înseamnă că calculele din bibliotecile în sine sunt scrise în întregime în Python - bineînțeles, pentru a optimiza calculele de nivel scăzut, ele scriu în C și se referă la biblioteci chiar de nivel inferior - drivere de plăci video și mai ales biblioteca cuDNN [ ] De asemenea, nu putem include în carte un manual despre limbajul Python, iar în viitor vom presupune pur și simplu că sunteți familiarizat cu limbajul în sine și cu biblioteca sa de calcul principală NumPy Dacă nu este cazul, atunci vă recomandăm să cunoașteți Python; tutorialele [ , , ] și numeroase resurse online pentru a învăța Python vă pot ajuta în acest sens Printre bibliotecile de uz general care sunt capabile să construiască un grafic de calcule și să efectueze diferențierea automată, Theano, dezvoltat la Universitatea din Montreal, în grupul clasicului de deep learning Yoshua Benji (Yoshua Bengio) [ , ], a a fost de multă vreme liderul incontestabil Cu toate acestea, în noiembrie , Google a lansat biblioteca (open source) TensorFlow [ ] destinată să facă același lucru TensorFlow a devenit a doua generație de biblioteci de deep learning la Google; a fost destinat să înlocuiască biblioteca DistBelief [ ], care a servit drept un mare succes în istoria învățării profunde, dar a rămas proprietară Bibliotecile Theano și TensorFlow sunt în prezent cei doi lideri de necontestat în acest domeniu și este dificil să recomand cu încredere una dintre ele Am ales TensorFlow pentru această carte, deoarece ne putem aștepta ca puterea dezvoltatorilor Google să ducă în cele din urmă la apariția unor noi funcții interesante în TensorFlow mai rapid decât în Theano Timpul va spune dacă presupunerea noastră este justificată Abstracția principală de care avem nevoie pentru a înțelege tot ce se întâmplă în codul bibliotecilor precum TensorFlow sau Theano este același grafic de calcul pe care l-am considerat în secțiunea anterioară Un program care utilizează TensorFlow, de obicei, definește doar un grafic de calcul, Vă salut, colegilor, de la pionieri, adică scuzați-mă, informaticieni din trecut! Sperăm cu adevărat că existați și că această carte nu a fost uitată complet imediat după lansare Din nou, lucrurile se schimbă foarte repede în domeniul nostru, așa că dumneavoastră, colegi din viitor, poate fiți mai conștienți Recent, însă, a apărut biblioteca RuTorch, care vă permite să scrieți în Python folosind Torch ca backend Și despre practică: o introducere în TensorFlow și Keras și apoi rulează o procedură precum session run care face calculele de mai sus și obține rezultatele reale În acest caz, TensorFlow va apela la unul sau altul backend, o bibliotecă de nivel scăzut care va rula efectiv codul de calcul Ca orice bibliotecă modernă pentru diferențierea simbolică și/sau antrenamentul rețelelor neuronale, TensorFlow poate rula atât pe CPU, cât și pe GPU Cu toate acestea, spre deosebire de multe alte biblioteci, TensorFlow, fiind creația Google, poate, de asemenea, să paralelizeze învățarea "din cutie" cu grupuri distribuite de computere; În carte, însă, nu vor exista astfel de exemple Poate că principala critică cu care se confruntă biblioteca TensorFlow este că încă nu este cea mai rapidă dintre toate cele similare; de exemplu, biblioteca Torch [ , ] este în prezent (sfârșitul anului ) considerată a fi mai eficientă Dar, în primul rând, nu am scris "momentan" degeaba și am indicat ora: TensorFlow se dezvoltă foarte repede, iar accelerarea backend-ului este, desigur, una dintre sarcinile principale Și în al doilea rând, chiar dacă apare dintr-o dată o bibliotecă și mai rapidă pentru calculul pe grafice, munca ta de învățare a TensorFlow tot nu va fi în zadar, deoarece "frontend-ul" în care definiți graficul de calcul și backend-ul care le produce efectiv sunt destul de poate fi împărțit De exemplu, TinyFlow [ ] este o bibliotecă care vă permite să construiți un grafic de calcul pe TensorFlow și să îl antrenați pe aceeași Torță Se dovedește ceva similar cu ceea ce în teoria compilatorului se numește LLVM (Low Level Virtual Machine, low-level virtual machine): biblioteca primește o descriere a graficului de calcul într-o singură "limbă", o transformă într-un fel de reprezentare internă, și apoi îl traduce în formatul dorit și îl trimite la intrare către backend, care poate fi scris într-o "limbă" complet diferită Deci, să facem cunoștință cu TensorFlow Obiectul principal pe care funcționează TensorFlow este, după cum puteți înțelege literalmente din nume, un tensor sau o matrice multidimensională de numere O variabilă din TensorFlow este un buffer din memorie care conține tensori Variabilele trebuie să fie inițializate explicit Pentru a declara o variabilă, trebuie să specificați cum este inițializată; dacă doriți, îi puteți da și un nume la care vă puteți referi apoi De exemplu: w = tf Variable(tf random normal([ , ], mean= , stddev= ), name='greutăți') b = tf Variable(tf zeros([ ]), name='biases ') Matematicienii care citesc acest lucru trebuie să fi fost îngroziți: la urma urmei, un tensor este un element al unui spațiu tensor, adică, de fapt, o transformare liniară între spații liniare multidimensionale Transformările formează, de asemenea, un spațiu liniar, iar numerele sunt doar reprezentările lor coordonate, depind de alegerea bazei și se pot schimba în timp ce tensorul însuși ca obiect geometric rămâne neschimbat Ei bine, matematicienii sunt nevoiți să dezamăgească: în TensorFlow, un tensor nu este un tensor real, ci o matrice multidimensională, nu există o relație de echivalență motivată de geometrie, doar un cuvânt frumos Dar din moment ce acest cuvânt este folosit în toată documentația și chiar în numele TensorFlow, nu îl vom putea evita capitolul În acest cod, am declarat două variabile: w ponderi denumite și b prejudecăți denumite Variabilele pot fi specificate în mod explicit unde exact trebuie să fie în memorie; de exemplu, dacă doriți să declarați o variabilă pe prima placă video (zero), puteți face acest lucru: cu tf device('/gpu: '): w = tf Variable(tf random normal([ , ], mean= , stddev= ), name='weights') Cu toate acestea, în modul "normal", pe un computer cu o placă video adecvată, trebuie doar să instalați versiunea TensorFlow compatibilă cu GPU și toți tensorii vor fi inițializați implicit pe placa dvs video Și este posibil, așa cum am menționat deja, să paralelizezi totul într-un grup de mașini interconectate; atunci tf device ar arăta cam așa: cu tf device('/job:ps/task: '): w = tf Variable(tf random normal([ , ], mean= , stddev= ), name='weights') Desigur, inițializarea și operarea clusterului au propriile subtilități, dar mai departe în cartea cu exemple de cluster nu va, așa că nu vom dezvolta acest subiect mai detaliat Toate variabilele trebuie inițializate Cel mai simplu mod este să faci asta înainte de a începe calculele: init = tf initialize global variables() Dar acest lucru nu funcționează în cazurile în care trebuie să inițializați variabile din valorile altor variabile; în astfel de cazuri, sintaxa ar fi: w = tf Variable(w initialized value(), nume='w ') Toate variabilele sesiunii curente pot fi salvate într-un fișier în orice moment: saved = saver save(sess, 'model ckpt') Această procedură va salva toate variabilele sesiunii sess în fișierul model ckpt și, pentru a restabili sesiunea mai târziu, rulați saver restore('model ckpt') În sarcinile de învățare automată, este necesar să se aplice în mod repetat aceeași secvență de operații la diferite seturi de date În special, învățarea cu mini-loturi implică calcularea periodică a rezultatului și a erorii pe exemple noi Pentru confortul transferului de date noi pe placa video în TensorFlow, există tensori speciali - așa-numiții stubs, tf substituent, la care mai întâi trebuie să transferați doar tipul de date și dimensiunile tensorului, iar apoi datele în sine vor fi înlocuite deja în momentul calculelor: x = tf placeholder(tf float ) y = tf placeholder(tf float ) ieșire = tf mul(x, y) cu tf Session() ca sess: rezultat = sess run(ieșire, feed dict={x: , y: }) Și despre practică: o introducere în TensorFlow și Keras În rezultat, după aceea ar trebui să iasă (verificați!) TensorFlow implementează un set complet de operații pe tensori de la NumPy cu suport pentru calcule matrice pe matrice de diferite forme și conversie între aceste forme (difuzare) De exemplu, în problemele reale devine adesea necesară adăugarea aceluiași element vectorial cu element la fiecare coloană a unei matrice În TensorFlow, acest lucru se face în cel mai simplu mod posibil: m = tf Variable(tf random normal([ , ], mean= , stddev= ), name='matrix') v = tf Variable(tf random normal([ ], mean= , stddev) = , ), nume='vector') rezultat = m + v Aici m este o matrice de dimensiunea x și v este un vector de lungime , iar atunci când se adaugă v va fi adăugat la fiecare m coloană Difuzarea este aplicabilă tuturor operațiunilor elementare pe doi tensori și funcționează după cum urmează Dimensiunile celor doi tensori se compară secvenţial începând de la capăt; Fiecare comparație trebuie să îndeplinească una dintre cele două condiții: • ori dimensiunile sunt egale; • oricare dintre dimensiuni este egală cu În acest caz, tensorii nu trebuie să aibă aceeași dimensiune: dimensiunile lipsă ale celui mai mic dintre tensori vor fi interpretate ca fiind unitare Dimensiunea tensorului rezultat, dacă sunt îndeplinite toate condițiile, este calculată ca maximul dimensiunilor corespunzătoare ale tensoarelor inițiale Cu toate acestea, acest lucru sună destul de complicat, așa că vă recomandăm să verificați cu atenție cum va funcționa difuzarea în fiecare caz specific non-trivial Pe lângă operațiile binare, TensorFlow implementează o gamă largă de operații unare: pătrat, luarea unui exponent sau logaritm, precum și o gamă largă de reduceri De exemplu, uneori trebuie să calculăm valoarea medie nu pentru întregul tensor, ci, să zicem, pentru fiecare element al unui mini-lot Dacă interpretăm prima dimensiune a tensorului ca dimensiunea unui mini-lot, atunci codul corespunzător poate fi următorul: tensor = tf placeholder(tf float , [ , ]) rezultat = tf reduce mean(tensor, axis=l) În acest caz, media va fi calculată în funcție de cea de-a doua dimensiune a tensorului tensor, adică vom face o medie de zece ori peste de numere și vom obține un vector de lungime În unele probleme, poate fi necesar să se utilizeze aceiași tensori variabili pentru mai multe căi de calcul diferite Să presupunem că avem o funcție care creează un tensor de transformare liniară peste un vector: def transformare liniară(vec, formă): w = tf Variable(tf random normal(shape, mean= , stddev= ), name='matrix') return tf matmul(vec, w) capitolul Și vrem să aplicăm această transformare la doi vectori diferiți: rezultatl = transformare liniară(vecl, formă) rezultat = transformare liniară(vec , formă) Este clar că în acest caz fiecare dintre funcții își va crea propria matrice de transformare, care nu va duce la rezultatul dorit Puteți, desigur, să setați tensorul w în avans și să-l transmiteți funcției linear transform ca unul dintre argumente, dar acest lucru va încălca principiul încapsulării, pe care nu toată lumea este dispusă să-l sacrifice Pentru astfel de cazuri, TensorFlow are domenii variabile Acest mecanism constă din două funcții principale: • tf get variable( , , ) creează sau returnează o variabilă cu numele dat; • tf variable scope( ) controlează spațiile de nume utilizate în tf get variable() Unul dintre parametrii tf get variable() este un inițializator: în loc să trecem în mod explicit valorile cu care ar trebui să fie inițializat atunci când declarăm o nouă variabilă, putem trece o funcție de inițializare, care, după ce a primit, dacă este necesar, informații despre dimensiunea variabilei, îl inițializează Să schimbăm puțin linear transform(): def transformare liniară(vec, formă): cu tf variable scope('transform'): w = tf get variable('matrix', shape, initializer=tf random normal initializer()) return tf matmul(vec, w) Acum, dacă încercăm să aplicăm transformarea noastră la doi vectori secvențial, vom vedea o eroare în timpul celui de-al doilea apel: # Raises ValieEgg( transform/natrix deja există ) Acest lucru se datorează faptului că tf get variable() verifică existența unei variabile în spațiul de nume curent pentru a preveni erorile legate de nume care sunt de obicei dificil de depanat Pentru a reutiliza variabile într-un spațiu de nume, trebuie să îi spuneți în mod explicit TensorFlow să facă acest lucru: cu tf variable scope('linear transformers') ca domeniu de aplicare: rezultatl = transformare liniară(vecl, formă) scope reuse variables() rezultat = transformare liniară(vec , formă) Acum totul funcționează exact așa cum ne-am dorit de la bun început Să ne uităm la cel mai simplu exemplu de model, un fel de Hello World pentru TensorFlow - antrenament de regresie liniară Reamintim că regresia liniară este de fapt un neuron care primește un vector de valori x ca intrare, scoate un număr și pe datele {(xі, / ) ,(^ , Yb), ■ ■ ■ ■ (xN) -yN) } sarcina este de a minimiza suma abaterilor pătrate a estimărilor neuronului yi de la valorile adevărate ale lui Ui" Și despre practică: o introducere în TensorFlow și Keras N L = ^yy) -> min• = Dar, deși sarcina este foarte simplă, vom încerca în acest exemplu să demonstrăm ciclul complet al unui program tipic TensorFlow, cu coborâre în gradient, antrenament mini-batch, stubs și blackjack Iată cum În codul de mai jos, vom aproxima prin regresie liniară o funcție de forma f = kx + b pentru k = și b = ; k și b vor fi parametrii pe care vrem să-i antrenăm Să ne uităm mai întâi la întregul program în ansamblu și apoi vom analiza în detaliu ce face import numpy ca np,tensorflow ca tf n samples, batch size, num steps = , , X data = np random uniform(l, , (n samples, )) y data = * X data + + np normal ( , , (n eșantioane, )) x = tf placeholder(tf float , shape=(batch size, )) y = tf placeholder(tf float , shape=(batch size, )) cu tf variable scope('linear-regression'): k = tf Variable(tf random normal((l, )), name='panta') b = tf Variable(tf zeros((l,)), name='bias') y pred = tf matmul(X, k) + b pierdere = tf reduce sum((y - y pred) ** ) optimizator = tf train GradientDescentOptimizer() minimize(pierdere) display step = cu tf Session() ca sess: sess run(tf initialize global variables()) pentru i în interval (num steps): indici = np random choice(n samples, batch size) X batch, y batch = X data[indici], y data[indici] , loss val, k val, b val = sess run([ optimizator, loss, k, b ], feed dict = { X : X batch, y : y batch }) if (i+ ) % display step == : print(' noxa %d: % f, k=% f, b=% f' % (i+ , loss val, k val, b val)) Acum să vedem ce face acest program Noi în mod constant: ) mai întâi, creăm aleatoriu datele de intrare X data și y data conform următorului algoritm: • arunca de puncte aleatoare uniform pe intervalul [ ; ]; • calculați pentru fiecare punct x "răspunsul corect" y corespunzător cu formula y = x + + e, unde c este un zgomot distribuit aleatoriu cu o dispersie de , e ~ A/*(b; , ) ; capitolul ) apoi declarăm tf substituent pentru variabilele X și y; în această etapă, trebuie deja să le dați o dimensiune, iar în cazul nostru aceasta este o matrice de dimensiuni (dimensiunea mini-lot x ) pentru X și doar un vector de lungime în dimensiunea mini-lot pentru y; ) în continuare inițializam variabilele k și b; acestea sunt variabile TensorFlow care nu au încă nicio valoare, dar vor fi inițializate cu distribuția normală standard pentru k și zero pentru b; ) apoi stabilim esența actuală a modelului și în același timp construim funcția de eroare J (^ - y) ; Atenție la funcția reduce sum: la ieșire, calculează doar suma matricei pe rânduri, dar trebuie să o folosești, și nu suma obișnuită sau funcțiile corespunzătoare din numpy, deoarece astfel TensorFlow poate optimiza procesul de calcul mult mai eficient; ) introducem variabila de optimizare - optimizatorul, adică algoritmul în sine, care va calcula gradienții și va actualiza ponderile; am ales optimizatorul standard de coborâre a gradientului stocastic; deocamdată, este important doar să remarcăm că acum de fiecare dată când solicităm lui TensorFlow să calculeze valoarea variabilei de optimizare, undeva în spatele scenei vor fi actualizări ale variabilelor de care depinde pierderea variabilei optimizate, adică k și b; pe X și nu va exista nicio optimizare, deoarece valorile lui tf placeholder trebuie să fie hard-coded - acestea sunt date de intrare; ) scriem o buclă mare, de fapt, face aceste actualizări (adică calculează variabila de optimizare de multe ori); la fiecare iterație a buclei, luăm un subset aleatoriu de indici de date batch size (adică ) și numărăm valorile variabilelor necesare; dăm funcției sess run o listă de variabile care trebuie calculate (principalul este să "calculăm" variabila de optimizare, restul sunt necesare doar pentru ieșirea de depanare) și un dicționar feed dict, în care scriem valorile a variabilelor de intrare, desemnate anterior ca tf placeholder Vă rugăm să rețineți că TensorFlow este extrem de sensibil la formele (în ceea ce privește formele, dimensiunile) tensorilor De exemplu, pentru ca funcția tf matmul să funcționeze, trebuie să alimentați matrice la intrarea sa, chiar dacă este o matrice x , așa cum am avut; dar puteți adăuga rezultatul cu un vector obișnuit de lungime (da, acestea sunt lucruri diferite!), a cărui formă este dată ca ( ,) Ca rezultat, acest cod va scrie o eroare care descrește treptat și va rafina treptat valorile lui k și b: Epoca : , , k= , , b= , Epoca : , , k= , , b= , Epoca : , , k= , , b= , Epoca : , , k= , , b= , Epoca : , , k= , , b= , Și despre practică: o introducere în TensorFlow și Keras Desigur, valorile exacte ale lui k - , b - nu vor funcționa la ieșire: coborârea gradientului este doar o metodă de optimizare aproximativă și, mai important, răspunsul corect la problema de optimizare nu coincide neapărat cu valorile pe care le-am "conceput", deoarece datele au fost generate aleatoriu Rețineți că în loc de bloc: cu tf Session() ca sess se poate scrie: sess = tf InteractiveSession() și continuați să utilizați variabila sess ca o sesiune deschisă permanent Acest lucru este util în modul interactiv al notebook-ului ipython vuwjupyter, iar în exemplele ulterioare din această carte, vom folosi, de obicei, sesiuni interactive TensorFlow, astfel încât să putem scrie și rula cod intercalate cu comentarii Așadar, ne-am uitat la cele mai simple operații folosind biblioteca TensorFlow și în detaliu, rând cu linie, am analizat primul exemplu real de utilizare a acesteia Încurajăm cititorul să se refere la documentația TensorFlow [ ] după cum este necesar și vom explica în continuare toate detaliile relevante de mai multe ori A doua bibliotecă pe care o vom folosi frecvent în această carte este Keras [ ] Este în esență un "înveliș" peste bibliotecile de diferențiere automată; totuși, în această carte le vom trata ca două entități separate Keras implementează aproape tot ceea ce vom vorbi în această carte ca primitive gata făcute: poți spune "fă-mi un strat de convoluție cu așa și astfel de parametri", iar Keras o va face Cu toate acestea, "în spatele scenei" totul este la fel ca în TensorFlow: este construit un grafic de calcul, pe care Keras îl alimentează apoi unei alte biblioteci pentru calcularea gradienților și implementarea algoritmilor de optimizare Desigur, în general, Keras este bun tocmai pentru că are o mulțime de lucruri deja implementate în formă terminată Cu toate acestea, pentru un exemplu de ciclu complet pe Keras, un model mai simplu este, de asemenea, destul de potrivit Să implementăm regresia logistică, mai ales că de fapt este doar o "rețea neuronală cu un singur strat" În primul rând, importăm din Keras tot ceea ce avem nevoie în continuare: import numpy ca ex from keras models import Secvenţial din keras layers import Intrare, Dens, Activare Apoi vom crea un model de regresie logistică Facem următoarele: Cu toate acestea, prima versiune oficială a TensorFlow, care a fost lansată în primăvara lui , a inclus biblioteca Keras ca parte integrantă Din fericire, compatibilitatea nu s-a stricat prea mult și aproape orice cod care începea cu import keras va funcționa acum bine cu import tensorflow contrib keras ca keras capitolul ) mai întâi creăm un model sub formă de Sequential - asta înseamnă că modelul va fi creat secvențial strat cu strat; ) apoi adăugăm un strat dens, ale cărui intrări vor fi de două dimensiuni (doar pentru exemplul nostru), iar rezultatul va fi un sigmoid logistic din intrări; vom vorbi mai multe despre cum funcționează acest lucru mai târziu, dar deocamdată, ai încredere că acesta este un model de regresie logistică: o funcție liniară cu greutăți antrenabile din intrări și apoi un sigmoid logistic din ieșire; ) în continuare, modelul în sine este compilat cu o funcție obiectiv dată (folosim entropia încrucișată pentru clasificarea binară) și o metrică de precizie pe care modelul o va calcula și scoate în proces; ca algoritm de optimizare vom indica o simplă coborâre a gradientului stocastic, încă nu am ajuns la ceva mai complex Iată cum arată în cod: logr = Sequential() logr add(Dense(l, input dim= , activation='sigmoid')) logr compile(loss='binary crossentropy', optimizer='sgd', metrics=['accuracy']) Și acum puteți încerca datele Pentru acest tutorial, să generăm doar două distribuții normale bivariate, una centrată la (- ; - ) și cealaltă la ( ; ), cu o varianță de în ambele componente: def sampler(n, x, y): returnează ex random normal(size=[n, ]) + [x, y] def eșantion date(n= , p =(- , - ), pl=(l , )): zerouri, ones = np zeros((n, )), np one((n, )) etichete = np vstack([zeros, ones]) z sample = sampler(n, x=p [ ], y=p [l]) o sample = sampler(n, x=pl[ ], y=pl[l]) return np vstack([z sample, o sample] ), etichete X train, Y train = sample data() X test, Y test = sample date( ) Astfel, am generat de puncte, de puncte pe clasă, pentru setul de antrenament și de puncte individuale, de puncte pe clasă, pentru setul de testare Acum poți începe antrenamentul; în rândul de mai jos setăm setul de antrenament, numărul de epoci și dimensiunea mini-lotului: logr fit(X train, Y train, batch size= , nb epoch= , verbose=l, validation data=(X test, Y test)) Setul de validare, pe care îl trecem și noi acolo, nu este folosit în niciun fel în antrenament, este necesar doar să calculăm pe el aceeași metrică "assigasu" pe care am stabilit-o mai sus Și despre practică: o introducere în TensorFlow și Keras Când se antrenează, Keras va oferi informații despre starea actuală a antrenamentului într-o formă convenabilă, iar rezultatul va arăta cam așa: Trin op de mostre, validați pe de mostre Epoca / / [= =] - s - pierdere: , - acc: , - val loss: , - val acc: , Epoca / / [= =] - s - pierdere: , - acc: , - val loss: , - val acc: , Epoca / / [= =] - s - pierdere: , - acc: , - val loss: , - val acc: , Epoca / / [= =] - s - pierdere: , - acc: , - val loss: , - val acc: , Epoca / / [= =] - s - pierdere: , - acc: , - val loss: , - val acc: , Epoca / / [= =] - s - pierdere: , - acc: , - val loss: , - val acc: , Aceasta înseamnă că, în cele din urmă, am învățat să ne clasificăm cele două distribuții normale pe setul de antrenament cu o precizie de aproximativ , % și pe setul de testare - până la , % (aceasta este, desigur, doar o coincidență) În experimentele noastre, algoritmul converge undeva în - epoci; Coborârea gradientului stocastic de vanilie nu este cel mai bun algoritm din lume, așa că este foarte posibil ca acesta să poată fi îmbunătățit (și vom vorbi despre cum în Secțiunea ) Până acum, acestea sunt doar primele exemple; Vom analiza în detaliu cum să inițializam și să folosim TensorFlow și Keras din nou în secțiunea Și ultimul detaliu În această carte, vom oferi exemple sub formă de cod pe care Keras îl poate compila automat atât pe TensorFlow, cât și pe Theano Mai mult, atât TensorFlow, cât și Theano sunt capabili să se transfere automat după acest calcul pe placa video Graficul de calcul va fi apoi stocat în memoria video, iar calculele în sine vor deveni mult mai paralele și, ca urmare, mult mai eficiente Din punctul de vedere al codului care definește modelul, nu se schimbă absolut nimic: pentru a rula modelul pe placa video, după compilarea lui în TensorFlow, trebuie doar să rulați scriptul în versiunea corespunzătoare de TensorFlow Dar există un mic truc legat de alocarea memoriei Dacă compilați modele în Theano, nu trebuie să vă gândiți la asta: Theano compilează mai întâi întregul grafic și, prin urmare, poate aloca exact atâta memorie cât este necesar Dar TensorFlow nu se va descurca singur, implicit va consuma pur și simplu toată memoria video disponibilă, ceea ce nu ne va permite să antrenăm mai multe modele pe aceeași placă video în același timp, chiar dacă a existat suficientă memorie pentru ele Prin urmare, memoria video pentru sesiunea TensorFlow va trebui alocată manual; iată cum se face: Cel puțin la începutul anului Aceste lucruri, desigur, se schimbă foarte repede capitolul def get session(gpu fraction= ): num threads = os environ get('OMP NUM THREADS') gpu options = tf GPUOptions(per process gpu memory fraction=gpu fraction) dacă num threads: returnează tf Session(config=tf ConfigProto( gpu options=gpu options, intra op parallelism threads=num threads)) altfel: returnează tf Session(config=tf ConfigProto(gpu options=gpu options)) După aceea, utilizați această funcție pentru a aloca cantitatea dorită de memorie video: sess = get session() Asta e tot Dacă modelul dvs se încadrează într-o cincime din memoria video, ca în linia de mai sus, atunci puteți antrena simultan cinci astfel de modele pe placa video deodată Adevărat, dacă nu există suficientă memorie, TensorFlow nu va putea înțelege acest lucru în avans și nu va putea aloca mai mult pe cont propriu, ci pur și simplu "cădea" cu o eroare Deci, în acest capitol, am trecut prin toate informațiile preliminare de care avem nevoie pentru a antrena rețelele neuronale, inclusiv pe cele mai complexe și profunde Este timpul să trecem la ele, dar nici măcar nu vom începe cu o rețea neuronală, ci cu componenta ei de bază: un model al unui singur neuron capitolul perceptron, sau embrion al unui computer înțelept TL;DR În al treilea capitol, vom arunca o privire mai atentă la componenta principală a oricărei rețele neuronale - perceptronul, precum și modul în care perceptronii sunt conectați într-o rețea În special, vom vorbi despre: • despre istoria rețelelor neuronale artificiale; • despre definirea perceptronului și metodele de formare a acestuia; • despre diferite funcţii de activare neliniare, de la cele clasice la cele moderne; • dacă modelul nostru de perceptron este similar cu neuronii reali vii; • despre cum să conectați neuronii într-o rețea și de ce acest lucru nu este deloc atât de simplu pe cât ar putea părea Și apoi, după ce am discutat despre toate acestea, vom oferi un exemplu viu al unei rețele care va învăța să recunoască numerele scrise de mână capitolul Când au apărut rețelele neuronale artificiale? Dar chiar și un simplu cetățean ar trebui să citească Istoria Ea îl împacă cu imperfecțiunea ordinii vizibile a lucrurilor, ca și cu un fenomen obișnuit în toate epocile N M Karamzin Istoria guvernului rus După cum am spus, rețelele neuronale sunt un exemplu de construcție matematică motivată și inspirată de cercetarea creierului uman Prin urmare, este destul de firesc ca, după standardele istoriei matematicii, rețelele neuronale să fie un obiect destul de tânăr; evident că nu ar fi putut apărea pe vremea lui Aristotel, care credea că creierul răcește sângele, iar oamenii se deosebesc de animale prin faptul că au un organ mare pentru răcirea sângelui și, prin urmare, pot acționa mai rațional Cu toate acestea, după standardele istoriei inteligenței artificiale, rețelele neuronale sunt unul dintre cele mai vechi, foarte primele modele, apărute înaintea celebrului eseu al lui Turing Computing Machinery and Intelligence, înainte de seminarul de la Dartmouth, înainte de apariția termenului propriu-zis de "inteligență artificială" Aparent, prima lucrare care oferă un model matematic al neuronului și construirea unei rețele neuronale artificiale a fost o lucrare a lui Warren McCulloch și Walter Pitts [ ], publicată în Autorii notează că, datorită naturii binare a activității neuronale (un neuron este fie "pornit", fie "oprit", practic fără stări intermediare), este convenabil să descriem neuronii în termeni de logică propozițională, iar pentru rețelele neuronale o întreagă logică este dezvoltat un aparat care formalizează grafuri aciclice Însuși designul neuronului artificial, pe care McCulloch și Pitts l-au numit Threshold Logic Unit (TLU), sau Linear Threshold Unit, s-a dovedit a fi foarte modern: o combinație liniară de intrări, care apoi intră în intrarea neliniarității sub forma unei "pas" care compară rezultatul cu un anumit prag (prag) Pe de o parte, lucrările lui McCulloch și Pitts nu se refereau încă la învățarea automată: în ea, modelele de neuroni și rețele neuronale au fost introduse pur logic, ca un sistem de axiome și reguli de inferență; apoi, cu ajutorul acestor reguli, au fost demonstrate o serie de teoreme generale Autorii au susținut mai degrabă că, în general, ar fi posibil Walter Pitts ( - ) a fost un logician american specializat în neuroștiința computațională În copilărie, Walter a învăţat singur logica şi matematica; când avea ani, Pitts a stat trei zile la rând în bibliotecă citind Principia Mathematica, apoi i-a scris o scrisoare critică lui Bertrand Russell, în care a evidențiat câteva probleme serioase cu primul volum al cărții Vremurile erau foarte diferite, era mai puțină supraîncărcare cognitivă și nu existau deloc filtre de spam, iar Russell nu numai că a citit scrisoarea, dar a luat-o în serios și l-a invitat pe Walter la locul său din Cambridge; Pitts nu s-a dus, dar s-a implicat în logică și a continuat să corespondeze cu Russell în timp ce studia la Universitatea din Chicago Citiți despre ce sa întâmplat în continuare în textul principal al capitolului Când au apărut rețelele neuronale artificiale? de a face cu astfel de neuroni artificiali bazați pe compararea pragului decât algoritmii de lucru concreti au încercat să ofere pentru aceasta O astfel de "rețea neuronală" nu era încă capabilă să învețe în niciun sens al cuvântului, iar efectul ei imediat a fost mai degrabă acela de a sugera ideea formalizării rețelelor neuronale și a activității neuronale în general, arătând că am putea avea o mașină Turing asamblate din neuronii din capul nostru (ideea unei mașini Turing era și ea destul de proaspătă atunci) Lucrarea lui McCulloch și Pitts a trecut în mare măsură neobservată în rândul oamenilor de știință, dar creatorul ciberneticii Norbert Wiener a înțeles imediat promisiunea rețelelor neuronale artificiale și idei despre modul în care gândirea ar putea apărea spontan dintr-o astfel de porți logice simple Wiener i-a prezentat lui von Neumann pe McCulloch și Pitts, iar cei cinci, împreună cu savantul cognitiv Jerome Lettvin, au început să lucreze la modul de adaptare a mecanicii statistice la gândirea modelului și apoi să construiască un computer funcțional bazat pe simulări neuronale Memoria într-un astfel de computer trebuia să fie obținută din circuite închise de activare a neuronilor, atunci când activarea secvențială se transformă într-un proces auto-susținut (există o mulțime de astfel de circuite închise în creierul real și cum funcționează și pentru ce sunt acestea) încă nu este complet clar) Pitts a fost considerat cel mai strălucit om de știință din acest grup și a anunțat că scrie o disertație despre rețelele neuronale tridimensionale probabilistice, cu o structură tridimensională a conexiunilor între ele Teza lui Pitts ar fi devenit cu siguranță o altă descoperire în cibernetică, dar, din păcate, totul s-a încheiat tragic Soției lui Viner, Margaret, nu i-au plăcut categoric petrecerile pe care McCulloch le-a organizat la ferma lui, iar când McCulloch a anunțat în că se mută la Cambridge, Margaret i-a spus lui Wiener că acești "băieți" ar fi sedus-o pe fiica lor Barbara în timp ce aceasta vizita casa McCulloch în care se afla Chicago De fapt, nimic de acest fel, desigur, nu sa întâmplat, dar Wiener a crezut și a oprit imediat orice comunicare cu McCulloch și Pitts Pentru Pitts, care în acel moment era deja predispus la depresie, acesta a fost un punct de cotitură: a început să bea din ce în ce mai mult, a încetat să mai apară la MIT, și-a ars (!) disertația și toate înregistrările despre ea, a încetat complet să facă știință și a murit la din hemoragia asociată cu ciroză hepatică [ ] Un alt prim pas în rețelele neuronale artificiale, de asemenea foarte relevant pentru cercetarea modernă, este cartea lui Donald Hebb The Organization of Behavior, publicată în [ ] Cartea în sine este mai mult despre neuroștiință decât despre matematică, dar unele părți din ea conțin idei cheie care au servit drept bază pentru orice formare ulterioară în rețelele neuronale Ideea specifică principală care a trecut din munca lui Hebb în învățarea automată modernă cu puține sau deloc modificări este așa-numita regulă a lui Hebb, pe care Donald Hebb însuși a formulat-o în sursa originală după cum urmează: "Când axonul celulei A este suficient de aproape de excită celula B și participă în mod repetat sau constant la activarea acesteia, are loc un proces de creștere sau modificare metabolică într-una sau ambele celule, în urma căruia eficiența lui A ca celulă, capitolul excitatorul B crește Mai simplu spus, dacă conexiunea dintre doi neuroni este folosită frecvent, se exercită și devine mai puternică Această idee simplă, dar foarte puternică, nu numai că a motivat cercetări ulterioare, dar a format în sine baza așa-numitei învățări hebbiane, un grup de metode de învățare nesupravegheate bazate pe această regulă de bază În această carte, nu ne vom opri în detaliu asupra învățării hebbiane, ci pur și simplu menționăm rețelele Hopfield [ ], a căror învățare se bazează pe acest principiu, precum și lucrările recente legate de timpul de activare a neuronilor Faptul este că Hebb a vorbit despre participarea cauzală a celulei A la activarea neuronului B și nu doar declanșarea simultană, adică celula A ar fi trebuit să se declanșeze puțin mai devreme; dezvoltarea modernă a acestei idei este cunoscută ca plasticitate dependentă de spike-timing [ , ] De îndată ce ideile lui Hebb au luat formă, a urmat imediat implementarea software-ului lor; mai exact, în acele vremuri era, desigur, o implementare "în hardware" În , Marvin Minsky, pe care l-am menționat deja de mai multe ori, și studentul său absolvent Dean Edmund au construit o rețea de patruzeci de sinapse Sinapsele au fost conectate aleatoriu unele cu altele și au fost învățate conform regulilor lui Hebb pe baza recompenselor pe care le-au oferit cercetătorii Acest model se numește SNARC (Stochastic Neural Analog Reinforcement Calculator) și, deși nu a fost dezvoltat direct, se poate spune că aceasta este prima implementare reală a învățării prin întărire (care va fi discutată în Capitolul ) Următoarea descoperire în neuroștiință a fost lucrarea lui Hubel și Wiesel [ , , ], care au putut studia suficient de detaliat activarea neuronilor în cortexul vizual, care a devenit motivația apariției rețelelor neuronale convoluționale și, într-un sens, învățarea profundă în general (vezi Secțiunea ) Dar aceasta a fost deja după apariția primilor perceptroni Rosenblatt [ , ], despre care se va discuta în secțiunea următoare Încheind acest scurt excursus istoric (totuși, întreg acest capitol spune multe despre istoria dezvoltării rețelelor neuronale, așa că vom reveni la el de mai multe ori), amintim o trecere în revistă detaliată a istoriei moderne a rețelelor neuronale, lucrarea lui Jurgen Schmidhuber [ ] În ciuda faptului că acesta este un text foarte dens și destul de sec, adesea doar o colecție de link-uri, se compară favorabil cu multe alte recenzii și eseuri istorice prin faptul că analizează istoria ideilor, cum nu doar rețelele neuronale dezvoltate Jurgen Schmidhuber (n ) este un matematician și informatician german, unul dintre părinții fondatori ai învățării automate moderne, renumit pentru realizările sale în rețelele neuronale, algoritmi genetici, teoria complexității și alte domenii În special, laboratorul lui Schmidhuber a dezvoltat o serie de modele pentru rețelele neuronale recurente moderne, inclusiv LSTM (memorie pe termen scurt) Un domeniu interesant al cercetării lui Schmidhuber este teoria frumuseții bazată pe noțiunea de complexitate Kolmogorov și opere de artă minimaliste create prin algoritmi foarte simpli (artă de complexitate scăzută) [ , ] Cum funcționează Perceptron rețelele în ansamblu, dar proiecte specifice și algoritmi de optimizare, ceea ce au realizat în fiecare etapă de dezvoltare și unde sunt aplicate acum toate aceste idei În plus, autorul încearcă să urmărească istoria fiecărei idei până la origini, până la prima apariție în literatură, adesea cu rezultate neașteptate Am folosit recenzia lui Schmidhuber de multe ori în pregătirea acestei cărți și o recomandăm din toată inima Cum funcționează Perceptron Până în anii ai secolului XX Minsky și Goode au dezvoltat o metodă pentru generarea automată și auto-reproducerea circuitelor neuronale în conformitate cu orice program ales arbitrar S-a dovedit că creierul artificial ar putea fi "crescut" printr-un proces izbitor de similar cu dezvoltarea creierului uman Detaliile exacte ale acestui proces în fiecare caz individual au rămas necunoscute; cu toate acestea, chiar dacă ar fi cunoscute, mintea umană nu ar putea să le înțeleagă întreaga complexitate A Clark Odiseea spațiului , trad N Gal Noi, oamenii bătrâneții, credem că fără principii (Pavel Petrovici a pronunțat încet acest cuvânt, în maniera franceză, Arkady, dimpotrivă, a pronunțat "principe", sprijinindu-se pe prima silabă), fără principii, a acceptat, după cum spui, despre credință, fă un pas, nu poți respira I S Turgheniev Părinți și fii Deci, începem în sfârșit să luăm în considerare matematica reală a ceea ce se întâmplă Și vom începe, desigur, de la elementele de bază, cu prima construcție a unui perceptron liniar^, descrisă de Frank Rosenblatt în anii [ , ] În esență, perceptronul lui Rosenblatt este un model de clasificare liniară În capitolul , am discutat deja problemele de clasificare, dar aici ne vom ocupa de cea mai simplă clasificare binară, când toate obiectele din eșantionul de antrenament sunt etichetate cu una dintre cele două etichete (să zicem, + sau - ), iar problema este În rusă, uneori încă mai scriu și spun "perceptron"; în această dispută dintre Arkady și Pavel Petrovici, noi, poate, vom lua partea tinerei generații Frank Rosenblatt ( - ) a fost un psiholog și informatician american Interesant este că Rosenblatt a fost psiholog de profesie, cu accent, desigur, pe științele cognitive De exemplu, una dintre activitățile sale după perceptron este studiul dacă memoria sau comportamentul învățat pot fi transferate prin injectarea fizică directă a materiei cerebrale de la șobolanii dresați în cei neantrenați (Rosenblatt a arătat în mod convingător că nu, nu poate) El a fost, de asemenea, interesat de politică și astronomie, a construit un observator acasă și a participat activ la SETI capitolul învățând să plaseze aceste etichete pe obiecte noi, nevăzute anterior Iar "modelul liniar" înseamnă că, ca rezultat al antrenamentului, modelul va împărți întregul spațiu de intrare în două părți printr-un hiperplan: regula de decizie despre ce etichetă să puneți va fi o funcție liniară a caracteristicilor de intrare Pentru simplitate, vom presupune că fiecare intrare este un vector de numere reale x = (a?i • • • ,xd) £ și intrările din setul de antrenament sunt echipate cu ieșiri cunoscute y(x) e {- , } În general vorbind, natura obiectelor de la intrarea modelului este de obicei un punct dureros în învățarea automată: adesea nu este ușor să se realizeze astfel încât același model să accepte atât caracteristici continue, cât și discrete ca intrare, dar facem abstracție de la toate aceste probleme deocamdată Apoi, în termenii noștri "model liniar" înseamnă că vom căuta astfel de greutăți e astfel încât semnul funcției liniare semn (wo + W X + W ^ • • • + potriviți răspunsul corect y(x) cât mai des posibil Pentru comoditate, pentru a nu trage termenul liber wq peste tot cu noi, introducem o dimensiune "virtuală" suplimentară în vectorul x și presupunem că x arată ca x - ( ,xi,x , • • • , xd)> atunci wq + upx\ + W ^ • • • + Wdxd poate fi considerat pur și simplu ca produsul interior wTx al vectorului de greutate w = (wq,wi,W , ,Wd) și al vectorului de intrare x Desigur, nici problema, nici răspunsul la ea nu se schimbă din această transformare; acesta este un truc standard și îl vom folosi des Cum să antrenezi o astfel de funcție? Primul pas este să selectați funcția de eroare Desigur, ar fi bine să-l selectați ca număr de exemple clasificate greșit Dar apoi, așa cum am discutat în Secțiunea , obținem o funcție de eroare cu o mulțime de discontinuități: va lua numai valori întregi și le va schimba brusc atunci când trece de la un număr de exemple clasificate greșit la altul Coborârea în gradient nu poate fi aplicată unei astfel de funcții și devine complet de neînțeles cum să antrenezi w Prin urmare, perceptronul lui Rosenblatt utilizează o funcție de eroare diferită, așa-numitul criteriu perceptron Ep(w) \u d - Y y (x) fTzh), unde M desemnează ansamblul acelor exemple pe care perceptronul cu ponderi w le clasifică incorect Cu alte cuvinte, minimizăm abaterea totală a răspunsurilor noastre de la cele corecte, dar numai în direcția greșită; un răspuns corect nu contribuie cu nimic la funcția de eroare Înmulțirea cu y(x) este necesară aici, astfel încât semnul produsului să se dovedească întotdeauna negativ: dacă răspunsul corect este - , atunci perceptronul a dat un număr pozitiv (în caz contrar, răspunsul ar fi corect) și invers Ca rezultat, avem o funcție liniară pe bucăți care este diferențiabilă aproape peste tot și acest lucru este suficient Cum funcționează Perceptron Acum îl putem optimiza cu coborâre în gradient La pasul următor, obținem: W(T+ ) - k/t) - r]X wEp(w) - + tfphp Algoritmul este următorul - parcurgem secvențial exemple din setul de antrenament și pentru fiecare xn: • dacă este clasificat corect, nu schimbați nimic; • și dacă este greșit, adăugați TȚtnxn la w Eroarea din exemplul xn scade evident în acest caz, dar, desigur, absolut nimeni nu garantează că, în același timp, eroarea din alte exemple nu va crește Această regulă de actualizare a greutății se numește regula de învățare a perceptronului și aceasta a fost ideea matematică principală a lucrării lui Rosenblatt Dar asta nu este tot Pentru a merge mai departe, trebuie să mai adăugăm o componentă la perceptron - așa-numita funcție de activare Faptul este că, în realitate, perceptronii, așa cum vom vedea literal în secțiunea următoare, nu pot fi liniari, așa cum i-am definit acum: dacă rămân liniari, atunci va fi imposibil să se formeze o rețea semnificativă din ei La ieșirea perceptronului, există în mod necesar o funcție de activare neliniară care ia aceeași combinație liniară ca intrare Există diferite tipuri de funcții de activare și le vom discuta în detaliu în secțiunea Dar funcția de activare cea mai clasică, cea mai populară din punct de vedere istoric și încă folosită în mod obișnuit este sigmoidul logistic Graficul său este prezentat în Fig Ca și alte funcții de activare ale neuronilor, aceasta este o funcție monotonă nedescrescătoare, care tinde spre zero pentru x -y - xy și tinde spre unitate pentru x -y xy; vorbind informal, aceasta înseamnă că, dacă este introdus un număr mare negativ, atunci neuronul nu este activat deloc și dacă capitolul mare pozitiv, aproape sigur se va activa Această funcție se numește sigmoid tocmai pentru că forma ei este similară cu litera Nu este dificil să antrenezi un astfel de perceptron: poți folosi aceeași coborâre în gradient Singura diferență este că acum luăm în considerare o problemă de clasificare binară, iar datele y(x) sunt etichetele și , iar funcția de eroare arată ca o entropie încrucișată (reamintiți secțiunea ): N E(w) = - - (yilogcrtw Xi) + ( - /i)log ( - i=l Este încă ușor să luăm derivata acestei funcții Ca rezultat, un perceptron cu un sigmoid logistic ca funcție de activare implementează de fapt regresia logistică și construiește suprafețe de separare liniare în același timp De asemenea, este de remarcat faptul că un singur perceptron este doar o variație a regresiei liniare; am vorbit despre regresia liniară în Secțiunea , unde funcția de eroare era pătratul abaterii Și diferite neliniarități la ieșirea unui neuron pot fi considerate forme diferite ale funcției de eroare În regresia liniară convențională, nu există deloc neliniaritate, iar eroarea este calculată ca sumă a abaterilor pătrate: E(x, y) = (y - wTx) În regresia logistică, sigmoidul este adăugat și eroarea este acum socotită ca o entropie încrucișată; de aici, problema de regresie se transformă într-o problemă de clasificare, iar ieșirile neuronului pot fi acum interpretate ca probabilități Și alte neliniarități, pe care le vom discuta mai jos, pot fi considerate și forme diferite ale funcției de eroare pentru proiectarea de bază a perceptronului - o combinație liniară de intrări Acum că ne-am dat seama de designul unui perceptron, putem asambla o întreagă rețea a acestora Acesta va fi graficul de calcul pe care l-am discutat în Secțiunea Un perceptron poate servi ca un nod în acest grafic, acționând ca o funcție elementară: pentru aceasta trebuie doar să putem calcula derivate parțiale în raport cu toate variabilele, ceea ce nu este deloc dificil de făcut pentru un perceptron Această pereche de propuneri a făcut un salt uriaș: acum putem antrena de fapt orice rețele neuronale (cu excepția celor recurente în prezent), iar algoritmul general de backpropagation pe care l-am discutat în secțiunea este potrivit pentru asta Desigur, antrenamentul rețelelor complexe cu coborâre literalmente stocastică în gradient nu este cea mai bună idee Întregul capitol va fi dedicat diferitelor moduri de a face învățarea să funcționeze mai bine Și totuși, chiar și acum, teoretic putem antrena o rețea neuronală complexă arbitrar! Acest lucru, desigur, numai dacă te uiți foarte atent și strângi bine ochii conceptul de "S-shape" este într-adevăr destul de larg și include și astfel de imagini Amintiți-vă, de exemplu, că simbolul integral provine și de la litera S, de la cuvântul "sumă" Adevărat, Leibniz în semnul integral nu folosea S-ul latin de bază, ci "S lung"; dar, la rândul său, provine din latină majusculă s în cursive Cum funcționează Perceptron Orez Ideea principală a arhitecturii rețelelor neuronale: a - grafic de calcul pentru perceptron; b - rețea neuronală complet conectată cu un nivel ascuns și un nivel de ieșire Pe fig În Figura , am arătat structura unui perceptron (Figura a), despre care am discutat deja în detaliu mai sus, precum și un exemplu de rețea neuronală simplă (Figura b) Fiecare intrare a acestei rețele este alimentată la intrarea fiecărui perceptron de "prim-nivel" Apoi, ieșirile perceptronilor "primul nivel" sunt alimentate la intrarea perceptronilor "al doilea nivel", iar ieșirile lor sunt deja considerate a fi ieșirile întregii rețele Mai există o notă importantă despre cum să combinați neuronii într-o rețea De obicei, în orice rețea, neuronii individuali sunt combinați în straturi Vectorul de intrare este alimentat simultan la mai mulți neuroni paraleli, fiecare dintre ele având propriile sale greutăți, iar apoi ieșirile acestor neuroni paraleli sunt din nou considerate ca un singur întreg, un nou vector de ieșire Deci, în fig , b arată o rețea cu un strat ascuns și un strat de ieșire, adică sunt două în total S-ar părea că teoretic nu există nicio diferență pentru graficul de calcul ce arhitectură să aleagă, oricum este doar un set de neuroni independenți Totuși, conceptul de strat este foarte important din punct de vedere computațional, practic Cert este că calculele în întregul strat de neuroni pot fi vectorizate, adică reprezentate ca o multiplicare a unei matrice cu un vector și aplicarea unei funcții de activare vectorială cu aceleași componente Dacă există k neuroni în strat, iar greutățile lor sunt wi,W , ,Wfc, Wj = (w win )m, iar intrarea este vectorul x = •••xn)m, apoi, ca rezultat, vom obține ieșirea neuronului cu greutăți Wi - yi - x), unde / este sa functia de activare Apoi, calculul pe care toți neuronii îl fac simultan poate fi reprezentat în formă vectorială după cum urmează: : = y = f(Wx) = \REGATUL UNIT/ unde W = saptamana/ capitolul iar calculul întregului strat se va reduce la înmulțirea matricei de greutate cu vectorul de intrări, iar apoi aplicarea aceleiași funcții de activare componentă cu componentă În același timp, reiese că calculele matriceale pot fi implementate mult mai eficient, în special pe procesoare grafice (plăci video), decât aceleași calcule, dar prezentate sub formă de cicluri obișnuite Prin urmare, o astfel de reprezentare vectorizată este unul dintre instrumentele principale pentru transferul antrenamentului și aplicării rețelelor neuronale pe plăcile video, iar acest lucru accelerează literalmente toate procesele de zeci de ori Pentru a încheia această secțiune, să ne întoarcem pentru un moment la istorie; putem continua acum povestea începută în secțiunea și urmărim istoria primilor perceptroni până la sfârșit Istoria inteligenței artificiale este plină de, scuzați clișeele, suișuri și coborâșuri Cicluri de optimism excesiv și dezamăgiri inevitabile după aceea, ceea ce în engleză se numește cicluri boom-and-bust, în istoria dezvoltării metodelor de învățare automată au fost deosebit de strălucitoare, mai strălucitoare decât în alte științe Și nu e de mirare, pentru că inteligența artificială a promis adesea promoții care, pe de o parte, arată absolut uimitor - roboți vorbitori! mașini autopropulsate! căutare automată în toate cărțile lumii! - și pe de altă parte, tot timpul par a fi "chiar dincolo de orizont", ca și când cam, puțin mai mult, și totul se va dovedi, androizii vor raporta vremea de poimâine cu o voce plăcută, aduce cafea și scrie poezie și nu va trebui decât să simțim sahibi albi printre slujitorii de silex Desigur, de multe ori nu oamenii de știință înșiși au desfășurat următoarea întorsătură a spiralei, ci jurnaliștii, și au făcut-o cu imaginație, dar trebuie să spun că nici oamenii de știință nu s-au distins prin modestie De exemplu, am examinat deja perceptronul lui Rosenblatt în detaliu și am văzut că acest model antrenează un clasificator liniar simplu Și iată ce a scris The New York Times despre perceptron (nu este deloc un tabloid, așa că este puțin probabil ca acest discurs indirect să fie foarte distorsionat) la iulie : "Un psiholog arată embrionul unui computer conceput să citească și să devină mai înțelept Dezvoltat de Marina un computer de milioane de dolari a învățat să facă distincția între stânga și dreapta după cincizeci de încercări Marina susține că utilizează acest principiu pentru a construi prima mașină de gândire din clasa Perceptron care poate citi și scrie; dezvoltarea este programată să fie finalizată într-un an, cu un cost total de de dolari Oamenii de știință prevăd că, mai târziu, Perceptronii vor putea să recunoască oamenii și să-i numească pe nume, să traducă instantaneu vorbirea vorbită și scrisă dintr-o limbă în alta Domnul Rosenblatt a spus că în principiu este posibil să se construiască "creiere" care să se poată reproduce pe linia de asamblare și care să fie conștienți de propria lor existență Și în secțiunea , am citat deja propunerea de grant a Părinților Fondatori pentru Seminarul de la Dartmouth din vara anului , în care promiteau să "învețe mașinile să folosească limbaje naturale, să formeze abstracții și concepte și să se perfecționeze pe ei înșiși" A fost o perioadă optimistă, desigur Apropo, cu "traducerea instantanee a discursului oral și scris" a apărut un incident, care a servit la un moment dat drept declanșator pentru primul real Cum funcționează Perceptron "Iarnile inteligenței artificiale" Este curios că nu s-ar fi putut descurca fără ruși; mai degrabă, totuși, ruși decât ruși În timpul Războiului Rece, guvernul american își dorea cu adevărat o mașină care să poată traduce rapid și fiabil documente din rusă în engleză și invers Începând din , cercetările conexe au fost sponsorizate activ, iar optimismul a fost, din nou, nemărginit: începutul cercetărilor în inteligența artificială a coincis cu celebrele dezvoltări ale lui Noam Chomsky privind transformările și gramaticile generative Se părea că limbajul natural era pe cale să fie descris destul de simplu și analitic dar nu După zece ani de cercetări, s-a dovedit că traducerea automată este încă o sarcină foarte, foarte dificilă și nici măcar distingerea omonimelor nu este deloc ușoară Din aceste studii a apărut faimosul exemplu de dublă traducere, după care spiritul este puternic, dar carnea este slabă ("spiritul este puternic, carnea este slabă") se transformă în vodca este bună, dar carnea este putredă ("vodca) este bun, dar carnea este putredă"); si, cel mai important, totul este corect! Teoretic, un astfel de sens ar putea fi și aici, dar pentru noi, care cunoaștem limbajul natural și trăsăturile sale nu prea evidente, probabilitatea unei astfel de lecturi este neglijabilă Iar la mijlocul anilor , acest exemplu nu părea deloc amuzant, ALPAC (Automatic Language Processing Advisory Committee - atunci SUA era foarte îndrăgostit de a crea tot felul de comitete) a concluzionat în raportul său că traducerea automată este mult mai proastă, mai mult scump și mai lent decât uman, toate finanțările s-au întors, iar eforturile pentru traducerea automată au încetat pentru o lungă perioadă de timp Perceptronii au venit puțin mai târziu În , Marvin Minsky și Seymour Papert au publicat o carte cu titlul simplu "Perceptrons" [ ], care a provocat o serioasă dezamăgire în proiectarea perceptronilor Noam Chomsky (n ) este un lingvist, filozof, logician și activist politic american, "părintele lingvisticii moderne" Principalul merit științific al lui Chomsky este revoluția din lingvistică, pe care a produs-o cu lucrările sale despre gramatici universale și generative; putem spune că datorită lui Chomsky a ajuns matematica la lingvistică Chomsky s-a distins întotdeauna printr-o poziție civică activă, a participat la dezbateri politice, a fost nu numai un om de știință, ci și o personalitate publică, iar în vremea noastră Chomsky este cunoscut și ca activist politic, publicist și critic; se ridică pe pozițiile anarho-sindicalismului și libertarianismului și critică constant "establishmentul american" Apropo, genetic, Noam Chomsky este un om de știință rus, literalmente în a doua generație: tatăl său era un evreu ucrainean care a emigrat în Statele Unite în timpul Primului Război Mondial, iar mama sa provenea din Belarus Marvin Lee Minsky ( - ) a fost un informatician american, unul dintre părinții fondatori ai inteligenței artificiale ca domeniu al științei Articolele sale celebre Steps Towards Artificial Intelligence [ ] și Matter, Mind, and Models [ ] au stabilit cele mai importante probleme pe calea construirii mașinilor de gândire și au jucat un rol central în dezvoltarea inteligenței artificiale și a științei cognitive Pe lângă meritele în inteligența artificială, a dezvoltat și prima cască de realitate virtuală din lume (în !), și a inventat și un microscop confocal pentru nevoile biologiei Este de remarcat faptul că Minsky l-a sfătuit pe Arthur C Clarke în scris și în scenă "Odiseea în spațiu " și este chiar menționat acolo destul de măgulitor - vezi epigraful secțiunii ; citatul, de altfel, este foarte caracteristic acelor vremuri optimiste Din păcate, în ianuarie , Marvin Minsky a încetat din viață; cu toate acestea, el a crezut, sau cel puțin nu a fost suficient de sceptic cu privire la crionică și este probabil ca corpul și, cel mai important, creierul său, să fie acum înghețate cu succes de compania Aikor capitolul - - Orez Un exemplu de mulțimi liniar inseparabile Rosenblatt Această poveste este adesea spusă ca și cum argumentul principal al lui Minsky și Papert ar fi liniaritatea perceptronului Într-adevăr, este evident că un perceptron Rosenblatt poate învăța să separe doar acele seturi de puncte între care poate fi desenat un hiperplan (astfel de mulțimi se numesc logic separabile liniar), și există o mulțime de alte mulțimi în lume! De exemplu, un perceptron liniar singur nu va învăța niciodată să implementeze funcția XOR: setul său de zerouri și multele sale, din păcate, sunt inseparabile liniar De exemplu, în fig , am desenat două seturi de puncte care sunt similare cu valorile funcției XOR: unul dintre ele (asteriscuri) este generat dintr-un amestec de distribuții normale centrate în punctele (- , ) și ( , - ), iar celălalt (puncte) este generat din amestecuri de distribuții normale centrate în punctele (- ,- ) și ( , ) Într-adevăr, deși punctele și stelele ocupă în mod evident regiuni diferite pe plan și sunt ușor de distins, este la fel de evident că nicio linie dreaptă nu le poate separa în mod adecvat O altă obiecție la construcția liniară este că, de asemenea, nu are sens să combinați perceptroni liniari într-o rețea: compoziția funcțiilor liniare va fi din nou liniară, iar o rețea de orice număr arbitrar mare de perceptroni liniari va fi capabilă să implementeze doar același lucru funcții liniare pentru care una ar fi suficientă Astăzi este ciudat pentru noi să auzim că acestea sunt argumente serioase împotriva: bine, bineînțeles, un clasificator liniar nu poate implementa XOR, dar o rețea de mai mulți clasificatori cu orice neliniaritate o poate gestiona fără dificultate Ei bine, desigur, nu are sens să conectăm perceptronii liniari la o rețea, dar de îndată ce adăugăm o funcție de activare neliniară, chiar și cea mai simplă, sensul va apărea imediat și foarte, scuzați jocul de cuvinte, profund Într-adevăr, McCulloch și Pitts au înțeles acest lucru (au propus chiar să construiască un analog al mașinii Turing pe Perceptronii moderni: funcții de activare perceptronii lui), iar pentru Minsky acest lucru, desigur, nu era un secret Afirmațiile negative din Perceptrons au fost doar pentru unele arhitecturi specifice: de exemplu, Minsky și Papert au arătat că rețelele cu un singur strat ascuns nu pot calcula anumite caracteristici decât dacă perceptronii din strat ascuns sunt conectați la toate intrările (anterior, oamenii sperau că ar putea deplasa "locale" conexiuni între perceptroni); in general, nimic criminal Cu toate acestea, la sfârșitul anilor , rețelele neuronale, și mai ales rețelele profunde, nu erau încă cunoscute pe scară largă, deși începuseră deja să fie dezvoltate; și s-a dovedit că cartea lui Minsky și Papert, care a primit o mare popularitate, i-a împins mult timp pe mulți cercetători să continue să studieze perceptronii și rețelele neuronale în general Timp de zece ani după aceea, rețelele neuronale au fost la modă și neprofitabile; Granturile pentru aceasta practic nu au fost acordate Cu toate acestea, în anii , s-au făcut progrese foarte serioase în dezvoltarea și studiul rețelelor neuronale Vom vorbi despre asta în capitolele următoare, dar deocamdată ne vom întoarce la perceptron și vom vedea ce funcții de activare are în timpul nostru iluminat Perceptronii moderni: funcții de activare În domeniul plăcerii reale, fizice, o persoană nu are decât un animal, în plus față de cât de mult sistemul său nervos mai potențat (înălțat, rafinat) sporește senzațiile oricărei plăceri, precum și orice suferință Dar, pe de altă parte, cu ce forță diferă emoțiile trezite în el, în comparație cu senzațiile unui animal! cât de disproporționat de puternic și mai profund îi este agitat spiritul! si totul din cauza faptului ca pana la urma sa se obtina acelasi rezultat: sanatate, mancare, adapost etc A Schopenhauer Parerga și Paralipomena În zilele noastre, desigur, nimeni nu refuză designul de bază al perceptronului Semnificația și secvența principală sunt în continuare aceleași: mai întâi, perceptronul primește intrări de la date sau nivelurile anterioare ale rețelei, apoi se ia combinația liniară a acestora cu niște greutăți, care, de fapt, vor fi antrenate în rețea și apoi rezultatul trece printr-o funcție neliniară, fără de care, așa cum am văzut deja în acest capitol, o rețea neuronală nu va avea nicio putere de expresie Din astfel de perceptroni sau neuroni constau toate rețelele neuronale moderne Diferența este doar în ceea ce, de fapt, construcția neliniarității; iar acum merită să ne oprim asupra acestei întrebări mai detaliat, pare extrem de interesantă capitolul După cum am spus deja, din punct de vedere istoric, în perceptronii neliniari, funcția de activare (excitația unui neuron) era folosită de obicei sub forma unui sigmoid logistic: a u = - Această funcție are toate proprietățile necesare pentru neliniaritatea într-o rețea neuronală: este mărginită, tinde spre zero ca x -> - oo și spre unitate ca x oo, este diferențiabilă peste tot, iar derivata sa poate fi calculată ușor ca (x'(x) = a(x)( - a(x )) Dar, desigur, nu este singurul Există multe funcții de activare diferite care au fost utilizate în literatură în momente diferite și în scopuri diferite Unele dintre ele sunt prezentate, pentru claritate, pe același grafic, în Fig În această secțiune, le vom cunoaște mai bine tangentă hiperbolică tanh(z) = Y e foarte asemănător ca proprietăți cu sigmoidul logistic: este, de asemenea, continuu, de asemenea limitat (deși tinde la - la x - oo, și nu la zero, dar acest lucru, desigur, nu contează), iar derivata acestuia este de asemenea, ușor de calculat prin el însuși: tanh'(w) = - tanh (Verificați singur!) Față de sigmoidul logistic, tangenta hiperbolică crește și scade mult mai "abrupt", își apropie mai repede limitele; de exemplu, panta tangentei la zero pentru tanhz( ) = , iar pentru sigmoidul logistic U( ) = | Cu toate acestea, există o diferență subtilă mai importantă: pentru funcția a, zero este punctul de saturație, adică dacă încercați să antrenați valoarea acestei funcție la zero, intrarea va tinde spre minus infinit, iar derivata va tinde la zero, aceasta este o stare stabilă Și pentru tanh, zero este doar cel mai instabil punct intermediar, este ușor să împingi de la zero și să începi să schimbi argumentul în orice direcție De ce este important acest lucru va fi discutat în Secțiunea Tangenta hiperbolică este adesea folosită în unele aplicații de rețele neuronale, în special în viziunea computerizată Ca funcție de activare, putem lua în considerare și funcția pas obișnuită, care este și funcția Heaviside: pas (ic) = Această caracteristică a fost folosită la primele modele de perceptron Faptul că nu este definit la zero nu interferează cu adevărat cu antrenamentul: poate fi extins, de exemplu, ca pas (^) = și, în practică, este puțin probabil să fie posibil să se lovească accidental exact zero Este foarte posibil să antrenați un perceptron cu o funcție de activare în trepte Pentru a face acest lucru, este suficient să calculați exact același lucru Perceptronii moderni: funcții de activare Orez Diverse funcții de activare Rezultatul "soft" ca o combinație de intrări și ponderi, dar apoi transformați-l într-o soluție "hard": dacă rezultatul "soft" este mai mic decât zero, emitem un răspuns, dacă este mai mare decât zero, altul La ultima etapă a clasificatorului, acest lucru este complet normal și nu interferează cu procesul de învățare Dar, din păcate, nu puteți construi o rețea cu mai multe niveluri pe funcțiile de activare a pasului, deoarece derivata pasului este pur și simplu întotdeauna egală cu zero (cu excepția, din nou, zero, unde nu este definită) Astfel, într-o rețea neuronală de perceptroni cu funcții de activare în trepte, gradienții nu vor ajunge de la ieșiri la intrări: pe parcurs, gradientul va fi înmulțit cu derivata funcției pas și nu va ieși decât zero După ce ne-am ocupat de funcțiile clasice de activare, să trecem la prezent Și aici este ceva de vorbit Ideea principală care a schimbat în mare măsură bazele arhitecturale ale rețelelor neuronale moderne este așa-numitele unități liniare rectificate (ReLU) Funcția lor de activare este liniară pe bucăți: n t tt/ x r , dacă x Același lucru poate fi scris mai concis: ReLU(a?) = max( , x) Și din nou, trebuie să spunem că aceasta nu este o idee complet modernă: astfel de neuroni artificiali au fost utilizați încă de la începutul anilor în modelul de rețea stratificată Kunihiko Fukushima pentru recunoașterea modelelor, numit Neocognitron [ , ] Cu toate acestea, apoi au fost abandonate pentru o lungă perioadă de timp, iar revigorarea ReLU a avut loc deja în mijlocul revoluției învățării profunde; pentru cei care doresc să intre în detalii, sugerăm lucrări [ ], în care activarea ReLU este motivată și descrisă în detaliu în contextul mașinilor Boltzmann limitate și [ ], în care utilitatea practică a ReLU devine evidentă în neuronale "obișnuite" retelelor Și noi înșine vom trece pe scurt prin ideile principale care conduc neuronii ReLU la succes capitolul În primul rând, observăm că neuronii ReLU sunt mai eficienți decât cei bazați pe sigmoidul logistic și tangenta hiperbolică De exemplu, pentru a calcula derivata a'(x), trebuie să calculați funcția non-simplu a, apoi să înmulțiți a(x) cu - a(x); cu tangenta este cam aceeași poveste, doar că trebuie să o pătrați Și pentru a calcula derivata lui ReLU'^), este nevoie de exact o comparație: dacă x este mai mic decât zero, returnăm zero, dacă este mai mare decât zero, returnăm unul La prima vedere, acest lucru pare nesemnificativ, dar în practică înseamnă că rețelele bazate pe neuroni ReLU cu același "buget de calcul" pentru antrenament, pe același "hardware" pot fi mult mai mari (ca dimensiune, adică după numărul de neuronii) decât rețelele cu funcții de activare mai complexe Cu toate acestea, în sine, acest argument înseamnă puțin: la urma urmei, pentru a calcula derivata unei funcții pas, nici nu trebuie să comparați cu nimic De asemenea, este necesar ca noul design să funcționeze și să învețe cu adevărat ceva Pentru a promova corect activarea ReLU, pentru a explica de unde provine, avem nevoie de un construct intermediar interesant Imaginați-vă că activați un perceptron cu un sigmoid logistic obișnuit Aceasta este o funcție plăcută, netedă și face o treabă grozavă de a distinge neuronii "destul de activați", atunci când rezultatul activării este aproape de unu, de "nu suficient de activat", când acest rezultat este aproape de zero Dar, în același timp, sigmoidul logistic dă, deși un răspuns continuu, dar în esență binar: de exemplu, îi va fi dificil să distingă o activare "cu puterea de " (cr ( ) , ) de o activ tivație "cu o putere de " (cr( ) ~ , ) De fapt, acesta este un pas binar atât de netezit: argumentul funcției este fie capabil să "sare" pe el, fie nu, iar "rezerva" rămasă nu este de interes pentru sigmoid Cu toate acestea, poate fi de interes dacă am dori să distingem între neuronii "foarte activați" și "puțin activați" Pentru a face acest lucru, puteți construi o construcție curioasă - suma mai multor sigmoizi logistici Să luăm în considerare o astfel de funcție de activare: Aceasta este suma unei serii infinite de sigmoizi logistici, fiecare dintre acestea fiind deplasat la dreapta celor anterioare câte unul Pe fig prezintă șase astfel de sigmoide, iar suma lor (curba neagră) tinde la șase Și ce va fi în suma unei serii infinite? La stânga lui zero, se comportă în același mod ca un singur sigmoid: dacă argumentul x este mai mic decât zero, mai ales dacă este semnificativ mai mic, toate sigmoidele sunt destul de aproape de zero și chiar suma seriei va fi mic Dar există un efect curios la dreapta lui zero: sigmoidele centrate mai departe în dreapta lui x vor fi în continuare aproape de zero (și seria va converge la orice punct final), în timp ce sigmoidele centrate în stânga vor fi aproape de unu Adică, activarea acestei "stive" de sigmoide numără aproximativ intrarea x Perceptronii moderni: funcții de activare Vorbind formal, trebuie mai întâi să observați cu ce este egală integrala sigmoidă (verificați acest lucru prin diferențiere): ja(x)dx - log ( + ex) + C Și acum vedem că f(x) este exact suma riemanniană a unei astfel de integrale: aproximarea acestuia prin zonele dreptunghiurilor de lățimea centrate în puncte naturale; în fig arată cum funcționează Aceasta înseamnă că suma va oferi o aproximare a valorii integralei: (, \ - y=OQ + ex + -Y\\ \u d ob ( + arici) /J = / Ce am primit? Se dovedește că o serie infinită de sigmoid, care este mult mai expresivă decât un singur sigmoid și poate exprima conceptul de "putere de activare", este aproximativ aceeași cu funcția log obișnuită ( + ex) Ei bine, această funcție, la rândul ei, este foarte asemănătoare cu ReLU(x) = max( , x) (vezi Figura ) Cu alte cuvinte, dacă ne uităm teoretic la neuronul ReLU, vom vedea că aceasta este o bună aproximare a unui design care este mai puternic și mai expresiv decât sigmoidul logistic obișnuit Acest lucru explică probabil succesul activării ReLU în rețelele neuronale moderne capitolul Există și o explicație mai puțin formală, dar și curioasă: se dovedește că un astfel de model de activare reflectă mult mai exact ceea ce se întâmplă cu neuronii reali dintr-un creier uman real (și nu numai) În primul rând, după cum știți, creierul este un organ teribil de consumator de energie, el consumă aproximativ % din toată energia pe care o cheltuiește o persoană, cu propria sa greutate de aproximativ % din greutatea corpului Prin urmare, pentru "calculatorul" nostru din cap, eficiența energetică, "facturile de electricitate" nu sunt mai puțin importante decât puterea de calcul în sine: dacă creierul ar cheltui și mai multă energie, o persoană, mai ales în etapele incipiente ale dezvoltării noastre evolutive, ar fi să se ocupe exclusiv de ceea ce întreaga zi caută continuu hrană pentru creier și nu ar mai fi timp să se gândească cu adevărat Pentru numărul imens de neuroni pe care îi are, creierul este extrem de eficient energetic; acest lucru se realizează, în special, prin raritatea activării neuronilor: de la la % dintre neuronii din creier sunt activați în orice moment [ ] Dar dacă ar avea activare sigmoidă și ar fi fost inițializate aleatoriu, ca în multe rețele neuronale, aproximativ jumătate dintre neuroni ar fi activați vizibil la un moment dat; iar cu activarea ReLU regularizată corespunzător (vom vorbi mult despre regularizare mai jos), nu este dificil să se obțină rate mari de sparsity În al doilea rând, studiile directe ale funcției de activare în neuroni reali și modele apropiate de biologie [ ] produc o funcție mult mai asemănătoare unei ReLU decât a unui sigmoid Aceasta este o funcție a intensității (frecvenței de funcționare) a semnalelor de ieșire ale neuronului în funcție de puterea curentului la intrare; formal vorbind, arată astfel: /(/) \u d G D ° AChkGDT) - 'dacă E + ShZhd, dacă E + RI , unde a este o mică constantă pozitivă, cum ar fi a = , (vezi Figura ) capitolul Tabelul Diverse funcții de activare: PivotTable Nume funcție Formula f(x) Derivată ff(x) Sigmoid logistic a l+e~x DC (i - DC) Tangenta hiperbolica tanh SoftSign ex-e~x ex+e~x î+hi - / C) ( +Ы) Pas (funcția Heaviside) J , x Bustean SoftPlus ( + arici) l+e~x ReLU f , x , x > Leaky ReLU, Parameterized ReLU J ax, x ^ , x > ELU ( a (ex - ), x ( , x> Ideea aici este să încercăm să îmbunătățim optimizarea, deoarece dacă pe partea negativă a domeniului de definire toți gradienții sunt strict egali cu zero, acești neuroni nu vor fi antrenați deloc Sa arătat în [ ] că modelele acustice LReLU construite pe rețele profunde îmbunătățesc recunoașterea vorbirii O dezvoltare ulterioară a acestei idei a fost ReLU parametrică (Parametric ReLU, PReLU) [ ] Această construcție arată exact la fel ca LReLU, cu singura diferență că acum constanta a poate fi antrenată și pentru fiecare set de date specific în felul său; rezultatul este un sistem strict mai expresiv decât ReLU și LReLU obișnuite, iar dacă ponderile, inclusiv constanta, sunt corect inițializate și antrenate, rezultatele vor fi mai bune [ ] O altă opțiune de modificare este un neuron liniar exponențial (Exponential Linear Unit, ELU) [ ], în care funcția de activare devine exponențială pe valorile negative ale argumentului: EEuC) = P(eZh- )' W Ideea aici este de a combina într-o singură funcție prezența valorilor negative (care este importantă pentru învățare) și saturația lor rapidă pe măsură ce argumentul scade și mai mult (acest lucru este important pentru a menține rară) Există și alte variante de funcții de activare, care și în unele domenii și experimente se arată mai bune decât cele existente; în general, aceasta este o zonă de cercetare în curs de dezvoltare foarte activă în învățarea profundă modernă Cum învață neuronii adevărați? Toate acele funcții despre care am vorbit în această secțiune, precum și câteva altele (de asemenea, uneori folosite în practică), sunt prezentate în Tabel Ce ar trebui să aleagă un dezvoltator sărac, cum să evalueze care dintre această varietate este cel mai potrivit pentru o anumită sarcină? De fapt, aceasta este departe de prima și nu principala problemă în dezvoltarea unui sistem real de învățare profundă; arhitectura sistemului și algoritmii de optimizare sunt de obicei mult mai importanți Marea majoritate a exemplelor din această carte vor folosi una dintre cele două funcții de activare: fie sigmoidul logistic a, fie ReLU Cu ele, în special ReLU, recomandăm să începem dezvoltarea, iar apoi, dacă este timp, puteți încerca ReLU parametrizat și alte idei moderne: pot da o oarecare îmbunătățire a calității, dar cel mai probabil este să fie marginală, iar această optimizare este mai bine să amâni pentru mai târziu Cum învață neuronii adevărați? Gândirea logică, chiar și în rândul oamenilor "civilizați", seamănă mai degrabă cu caii care dansează, adică un truc care poate fi predat unora, dar nu tuturor, și poate fi executat doar cu o mare cheltuială de efort și cu variații grade de îndemânare și chiar și cei mai buni reprezentanți nu sunt capabili să o repete de multe ori la rând X J Uldall Fundamentele glosematicii În această carte, ne vom uita la o mulțime de arhitecturi diferite pentru rețelele neuronale: rețele convoluționale, rețele recurente, rețele de atenție, rețele cu memorie, astfel de rețele, așa, așa Când descriem arhitecturi noi, vom reveni la structura creierului uman de mai multe ori și vom scoate din arhitectura lui naturală câteva idei noi despre cum putem aranja arhitectura rețelelor artificiale Dar, în același timp, vom antrena rețelele până la capăt folosind metode bazate pe coborârea în gradient, a căror esență am luat-o deja în considerare în Secțiunea , și vom vorbi despre modificări moderne în Secțiunea Din punct de vedere algoritmic, coborârea în gradient este implementată prin propagarea înapoi a erorii: considerăm treptat gradientul ca fiind compoziții complexe de funcții elementare și transferăm acești gradienți prin rețea în direcția opusă Neuronii reali, "vii" chiar funcționează așa? Cel mai probabil nu Există mai multe motive serioase simultan pentru a crede că neuronii biologici nu pot realiza propagarea înapoi a unei erori În primul rând, se transmit unul altuia nu numere reale, ci semnale binare: un vârf, o activare a unui neuron nu conține suficiente informații pentru a transfera valorile gradienților (de fapt, desigur, totul este puțin mai complicat, dar încă) Dar aceasta în sine nu este o problemă: vorbind despre abandonul în secțiunea , capitolul vom discuta de ce neuronii biologici ar putea avea nevoie să transmită nu gradientul în sine, ci versiunea sa stohastică și foarte distorsionată Există, de exemplu, un rezultat izbitor, care spune că este suficient (stochastic) să se transmită un bit de informație pe trecerea înainte a valorilor de calcul a rețelei și doi biți pe cel invers, astfel încât propagarea înapoi a eroarea funcționează suficient de bine În al doilea rând, neuronul nu are conexiuni care să funcționeze în ambele direcții simultan: neuronul transmite semnale de-a lungul axonului și primește intrări prin dendrite și are conexiuni bidirecționale automate care ar putea fi utilizate într-o singură direcție în timpul trecerii înainte și în alta in timpul celei inverse Nu În al treilea rând, și aceasta este cea mai serioasă obiecție, pentru propagarea inversă a unei erori, este necesar ca neuronul să poată transmite două tipuri diferite de valori: în timpul trecerii înainte, trebuie să transmită rezultatul calculării funcției sale din intrări, iar în timpul trecerii înapoi, rezultatul calculării gradientului funcției sale de-a lungul intrărilor Pentru un computer, desigur, aceasta nu este deloc o problemă: acolo unde există un algoritm, sunt doi Dar pentru neuronii biologici, acesta devine un obstacol de netrecut: ei nu au un mecanism care să le permită să lucreze diferit, în funcție de altceva decât de propriile lor intrări Prin urmare, deși nu este încă complet clar, este puțin probabil ca neuronii biologici să implementeze în mod direct propagarea inversă a erorilor Dar ce algoritmi implementează de fapt? Poate că putem împrumuta de la natură nu doar arhitecturi, ci și algoritmi? La începutul acestui capitol, am menționat deja principala idee alternativă pentru învățarea neuronilor din creierul viu: învățarea conform Hebb Această idee a apărut la sfârșitul anilor [ ] și se bazează pe un principiu simplu: acele legături care sunt adesea activate primesc greutăți mari, iar cele care sunt rareori activate mor treptat Ideile lui Hebb au devenit rapid curentul principal al neuroștiinței, au servit drept unul dintre fundamentele behaviorismului și sunt încă considerate corecte, doar periodic rafinate Matematic, esența unui astfel de antrenament este simplă: să presupunem că avem un set de neuroni care sunt cumva conectați între ei și fiecare conexiune dintre neuronii r și j este caracterizată de o greutate uur ca urmare a găsirii valorilor de activare, fiecare neuron va calcula o ieșire хі Apoi, învățarea va consta în creșterea greutăților conexiunilor dintre perechile de neuroni activate: Aiu - r/XiXj În această ecuație, puteți fie să presupuneți că fiecare xi este egal fie cu zero, fie cu unu și să creșteți ponderile numai neuronilor activați, fie să considerați că xi este și - și, în același timp, să creșteți ponderile dintre neuroni, niciunul din care este activat În plus, trebuie să reduceți greutatea puțin câte puțin Cu toate acestea, există și alte idei în acest sens: a se vedea, de exemplu, raportul lui Geoffrey Hinton "How to backproagate in the brain" [ ] Cu toate acestea, este semnificativ faptul că acest raport nici măcar nu s-a transformat într-un articol Cum învață neuronii adevărați? toți neuronii în mod egal, sau renormalizează greutățile astfel încât "energia" totală a sistemului să rămână constantă Regula de învățare a lui Hebb pare mult mai simplă și mai logică pentru neuronii biologici decât propagarea inversă a gradientului Cu toate acestea, în anii , a depășit cu mult dezvoltarea neuroștiinței Primul exemplu de mecanism biologic care susține învățarea Hebbian este potențarea pe termen lung (LTP) Cu el, transmisia sinaptică între doi neuroni, care sunt activați în același timp, este doar amplificată A fost descoperit de Terje Lemo și Timothy Bliss, care au efectuat experimente pe iepuri la sfârșitul anilor și începutul anilor [ , , ], iar acum se crede că potențarea pe termen lung este unul dintre principalele mecanisme ale modului în care funcționează memoria și antrenament În inteligența artificială, regula lui Hebb a dat naștere așa-numitelor rețele Hopfield Acestea sunt modele grafice probabilistice care implementează memoria asociativă: rețeaua (sub formă este de obicei o rețea bidimensională) "își amintește" mai multe stări de asociere dorite Memorarea are loc cu ajutorul învățării hebbiane, iar ca urmare a unei astfel de învățari, stările memorate devin minime locale ale energiei rețelei Rețeaua trebuie apoi să convergă către una dintre ele din orice stare inițială Ideea rețelelor Hopfield a fost de a modela procesele de rechemare asociativă în acest fel, atunci când există mai multe asocieri posibile, iar "cea mai apropiată" dintre ele apare [ , ] Cu toate acestea, în timp ce rețelele Hopfield nu funcționează atât de bine pe cât ne-am dori Există rețele neuronale moderne cu memorie (le vom discuta pe scurt în Capitolul ), dar se pare că principalele cercetări în domeniul modelării memoriei asociative sunt încă în față În neuroștiința modernă, fenomenul de potențare pe termen lung a fost, desigur, deja studiat în detaliu În special, neurologii au descoperit că întărirea conexiunii sinaptice dintre neuroni depinde nu numai de faptul însuși activării articulare, ci și de momentul specific în care se întâmplă toate acestea, adică de cât timp trece între vârfurile neuronilor la intrare și ieșire Acest fenomen a fost numit plasticitate dependentă de spike-timing (STDP) [ , ] Lucrarea recentă a lui Joshua Benji și colab [ ] încearcă să justifice teoretic STDP în contextul învățării profunde, din punct de vedere al învățării automate și al optimizării caracteristicilor Există și alte idei despre cum puteți antrena rețele neuronale fără gradienți sau cu gradienți exprimați într-un mod foarte neașteptat De exemplu, Geoffrey Hinton și James McClelland, încă din a doua jumătate a anilor , au propus o modalitate de a antrena autoencodere fără propagarea erorilor, datorită așa-numitei recirculare a activărilor printr-o rețea neuronală [ ] Să ne uităm la asta folosind cel mai simplu exemplu, când rețeaua are un grup de neuroni vizibili la care sunt alimentați intrări și un grup de neuroni ascunși de la care ar trebui antrenată o bună reprezentare a acestor intrări Graficul conexiunii este bipartit: fiecare capitolul neuronul vizibil este conectat la fiecare neuron ascuns, dar nu unul la altul O astfel de arhitectură este foarte asemănătoare cu mașina Boltzmann restricționată, iar algoritmul său de învățare va fi, de asemenea, oarecum similar Mai mult, fiecare neuron să fie un perceptron familiar cu o funcție de activare sigmoidală: Apoi procedura de reciclare funcționează după cum urmează Să ne imaginăm că antrenamentul rețelei neuronale nu are loc în mod abstract, ci "în timp real", prin transmiterea succesivă a activărilor între neuroni, iar transmiterea activărilor merge în ambele sensuri: la fiecare moment (discret) de timp, activările neuronilor se modifică Apoi, ceea ce se va întoarce la neuronul nivelului vizibil după ce a călătorit înainte și înapoi prin rețea este intrarea restaurată, pe care autoencoderul ar trebui să o aibă cât mai aproape de intrarea inițială Și chiar derivatul, în direcția căreia trebuie să schimbi greutățile pe drum de la neuronii nivelului ascuns la cei vizibili, este doar diferența dintre ceea ce neuronul vizibil a trimis înainte și ceea ce a revenit la el! Rămâne doar să presupunem că fiecare neuron este capabil să-și "amintească" valoarea anterioară și să acționeze pe baza diferenței dintre starea sa anterioară și activarea nou sosită Această presupunere este destul de rezonabilă din punct de vedere biologic Se dovedește că modificarea greutății de la neuronul j-ro al nivelului ascuns la neuronul i al nivelului vizibil poate fi calculată ca L ( ) ( ( ) ( )\ Ash^- = yy> {y} '-y> , unde superscriptele indică timpul În [ ], s-a dovedit că o astfel de regulă de actualizare converge într-adevăr acolo unde este necesar, doar converge oarecum mai rău decât coborârea obișnuită a gradientului, deci nu are sens să folosiți o astfel de pregătire pentru rețelele neuronale artificiale În ciuda acestor lucrări separate, în această secțiune, precum și mai devreme în secțiunea , am văzut că creierul uman și rețelele neuronale sunt, deși oarecum similare, dar totuși foarte diferite dispozitive de procesare a informațiilor Prin urmare, rețelele neuronale moderne nu ar trebui considerate ca o încercare de a emula activitatea creierului: da, uneori suntem inspirați de modul în care funcționează totul în capul nostru, dar până acum nu înțelegem cu adevărat cum învață creierul de fapt și nu putem emula exact nici măcar asta pe care deja înţelegem Vom reveni la acest subiect din nou în Secțiunea , unde vom vorbi despre modul în care proiectarea regiunilor cortexului cerebral responsabile de vedere i-a ajutat pe cercetători să creeze rețele neuronale convoluționale Dar, în general, este timpul să închidem subiectul corespondenței dintre rețelele neuronale și creierul uman: de acum înainte, pentru noi, rețelele neuronale sunt un formalism al învățării automate și nu o încercare de a observa ceva din natură Rețele profunde: care este frumusețea și care este dificultatea? Rețele profunde: care este frumusețea și care este dificultatea? Dacă aveam vreo dorință, era doar una: mai adânc, mai adânc în acest vis, din ce în ce mai adânc, și mai adânc A Garborg Moarte Trebuie să mergem mai adânc Din filmul Inception Până acum, am învățat multe despre rețelele neuronale Am înțeles că sunt formați din neuroni, dezasamblați cum arată un neuron, cum sunt conectați într-o singură rețea neuronală și, cel mai important, cum poate fi apoi antrenată această rețea neuronală: pentru aceasta, sunt utilizate diferite variante de coborâre a gradientului, despre care vom discuta în detaliu în Capitolul , iar pentru a calcula efectiv gradientul, puteți folosi algoritmii de diferențiere automată pe graficul de calcul despre care am vorbit recent Toate aceste metode, în general vorbind, nu depind în niciun fel de arhitectura rețelei neuronale și, teoretic, ar trebui să funcționeze pentru orice graf de calcul, atâta timp cât putem transmite gradienți prin noduri, adică implementăm procedura de retropropagare Ideea unui grafic de calcul nu pare atât de complicată, oamenii au știut cum să diferențieze compoziția funcțiilor de câteva secole, iar algoritmul de coborâre a gradientului în sine era cunoscut chiar înainte de secolul al XX-lea Însăși ideea de a construi o rețea profundă, adică de a înșira mai multe niveluri de neuroni unul peste altul, nu pare să fie culmea ingeniozității A fost într-adevăr atât de dificil să combinați aceste idei împreună, încât revoluția învățării profunde a început abia în secolul , în - , iar înainte de aceasta, arhitecturile și algoritmii profundi erau necunoscute? Desigur că nu Ideile din spatele rețelelor neuronale profunde au o istorie aproape la fel de lungă ca și rețelele neuronale artificiale în sine Primele rețele profunde au apărut la mijlocul anilor și aici există un motiv pentru mândria orașelor mici: primele rețele profunde reale sub formă de perceptroni profundi au fost descrise în lucrările omului de știință sovietic A G Ivakhnenko [ , ] Ivakhnenko s-a dezvoltat Pentru o istorie timpurie a chestiunii, aici ne întoarcem din nou la referințele din recenzia istorică deja menționată a lui Jürgen Schmidhuber [ ]; Apropo, la recenta conferință NIPS , Schmidhuber i-a dedicat un diapozitiv separat lui Alexei Grigoryevich Ivakhnenko în raportul său, numindu-l "părintele învățării profunde" Alexey Grigoryevich Ivakhnenko ( - ) - om de știință sovietic, specialist în domeniul sistemelor de control Metoda de contabilizare de grup a argumentelor a devenit principalul său rezultat, iar Ivakhnenko a dezvoltat și aplicat astfel de metode de-a lungul vieții Deși munca sa a fost recunoscută pe scară largă în întreaga lume [ ], el este acum rar amintit printre pionierii învățării profunde; să sperăm că germanul Schmidhuber va putea apăra "gloria armelor sovietice" capitolul așa-numita metodă de contabilizare de grup a argumentelor [ ], a cărei esență arată cam așa: • mai întâi alegem o vedere generală, o familie parametrică de modele pe care le vom antrena; Ivakhnenko a sugerat utilizarea așa-numitelor polinoame Kolmogorov-Gabor, adică, de fapt, doar polinoame cu coeficienți necunoscuți, dar pot exista și altele; • construim și antrenăm diferite versiuni ale modelelor selectate; • selectăm câteva modele cele mai bune utilizând metrica calității; dacă calitatea dorită a fost deja atinsă, nu mai puteți face nimic; • dar dacă nu a fost încă atins - și acesta este punctul cheie - atunci începem să construim modele de nivelul următor, folosind ieșirile modelelor selectate la pasul anterior ca intrări pentru următoarele; • Acest proces poate fi repetat recursiv până când calitatea modelului fie atinge nivelul dorit, fie încetează să se îmbunătățească Metoda de contabilizare de grup a argumentelor pare surprinzător de modernă Dacă alegem un perceptron ca model de bază în el, vom obține o rețea neuronală tipică cu mai multe straturi, care este antrenată strat cu strat: mai întâi primul, apoi este fix și al doilea începe să fie antrenat etc la începutul anilor , modelele acestei metode au fost antrenate cu destul de mult succes până la șapte niveluri în profunzime [ ], iar aceasta este foarte asemănătoare cu procedura de pre-antrenament nesupravegheată pe care am menționat-o deja și pe care o vom discuta în detaliu mai jos Dar totuși, rețelele neuronale au mers într-un mod puțin diferit Deja menționatul Neocognitron al lui Kunihiro Fukushima [ , ] poate fi considerat prima rețea neuronală profundă, în care au apărut atât rețele convoluționale, cât și activări, foarte asemănătoare cu ReLU Cu toate acestea, acest model nu a fost antrenat în sensul modern al cuvântului: ponderile rețelei au fost stabilite din regulile locale de învățare nesupravegheată Cam în același timp, au apărut modele profunde bazate pe backpropagation Prima aplicare a backpropagarii la arhitecturi arbitrare poate fi considerată opera studentului finlandez de atunci Seppo Linnenmaa [ ] : în , el a construit reguli pentru diferențierea automată de-a lungul unui grafic de calcul, pe care l-am considerat în Secțiunea , inclusiv backpropagarea Cu toate acestea, Linnenmaa nu era interesată de rețelele neuronale și de învățarea automată în general Aceste idei le-au fost aplicate în lucrările lui Dreyfus [ ] și Verbos [ ], iar de la lucrările clasice ale lui Rumelhart, Hinton și Williams, care au fost publicate în și puțin mai târziu [ , ], metoda retropropagarii a devenit general acceptat pentru predarea oricărei arhitecturi neuronale Aici începe istoria rețelelor neuronale Nu vom scrie o întreagă notă de subsol biografică despre Linnenmaa, dar observăm că a primit primul doctorat în informatică în istoria Universității din Helsinki Și și-a apărat munca pe backpropagation ca diplomă de master (M Sc )! Îi sfătuim pe studenții noștri să nu-și atârne nasul și să nu creadă că "atunci a fost mai interesant": crede-mă, vor fi destule sarcini interesante și pentru vârsta ta Rețele profunde: care este frumusețea și care este dificultatea? se ramifică vizibil și vom reveni la el deja în capitolele corespunzătoare despre arhitecturi specifice Și acum să trecem la întrebarea, ca să spunem așa, de natură teleologică: de ce avem nevoie deloc de rețele profunde? Teorema clasică Hornik [ ], bazată pe lucrările anterioare a lui Kolmogorov [ ], afirmă că orice funcție continuă poate fi aproximată în mod arbitrar cu precizie printr-o rețea neuronală cu un nivel ascuns S-ar părea că acest lucru ar trebui să fie suficient De ce să produci o complexitate suplimentară din senin? Faptul este că arhitecturile profunde vă permit adesea să exprimați același lucru, să aproximați aceleași funcții mult mai eficient decât cele superficiale Cititorii cu o anumită experiență în informatică teoretică ar putea, înainte de a trece mai departe, să-și amintească afirmații similare despre circuitele booleene: se știe că circuitele cu adâncimea k + pot exprima efectiv mai multe funcții booleene decât circuite cu adâncimea k Mai mult, se poate chiar construi împărțiri exponențiale între un număr diferit de niveluri, adică pentru orice k, se poate inventa o funcție care poate fi exprimată printr-o schemă polinomială de adâncime k + , dar care necesită o dimensiune exponențială a schemei de adâncime k [ ] Cu straturile unei rețele neuronale, apare același efect: aceeași funcție poate fi adesea aproximată mult mai bine printr-o rețea mai profundă decât printr-o rețea superficială, chiar dacă numărul total de neuroni din rețea este lăsat constant Nu vom intra aici în detalii geometrice, dar vă recomandăm lucrarea [ ] pe această temă, care arată foarte elegant că un strat de neuroni cu activare ReLU "pliază" de fapt spațiul, identificând unele dintre părțile sale între ele; și astfel suprafețele de separare construite în acest spațiu "pliat" sunt apoi "desfășurate" în construcții mult mai complexe în spațiul vectorilor de intrare înșiși Și cealaltă parte a puterii rețelelor profunde este că o rețea neuronală profundă creează nu doar o reprezentare profundă, ci și o reprezentare distribuită Aici vorbim despre faptul că fiecare strat al rețelei profunde este format nu dintr-un neuron, ci din mulți simultan, iar combinațiile valorilor acestor neuroni produc o adevărată explozie exponențială în spațiul intrărilor! Am ilustrat acest lucru cu un exemplu din fig , similar cu care Joshua Benji îl citează adesea în articolele și cărțile sale [ , ] Imaginați-vă că putem separa punctele din plan folosind trei caracteristici posibile, fiecare dintre acestea fiind o funcție liniară: /b / , /s , dar de-a lungul uneia dintre ele este prezentată o suprafață de despărțire, adică o linie dreaptă pe un plan, iar părțile în care linia dreaptă împarte planul sunt marcate Există, desigur, două dintre acestea Cum ar trebui să fie combinate aceste caracteristici în clasificatorul nostru? În primul rând, puteți încerca să adăugați profunzime și să faceți un arbore de decizie; Un exemplu de astfel de arbore și suprafața de separare corespunzătoare sunt prezentate în Fig b Rețineți că arborele împarte planul în tot atâtea părți cât capitolul Orez Puterea reprezentărilor distribuite: a - suprafața de divizare a unei trăsături; b - suprafața de împărțire a unui arbore de adâncime pe trei caracteristici; c - suprafață de împărțire a trei caracteristici deodată câte frunze are: pentru a face față la patru cazuri posibile diferite, trebuia să construim un copac cu patru frunze Iar în fig , este prezentată o reprezentare distribuită: să ne imaginăm că "al doilea strat" al nostru poate consta din trei neuroni simultan Apoi, toate combinațiile posibile ale acestor trei neuroni pot recunoaște = cazuri diferite deodată ( dintre ele sunt realizate în imagine), iar acest număr de opțiuni diferite crește exponențial odată cu creșterea numărului de neuroni Acum imaginați-vă (ar fi dificil să-l desenați - s-ar dovedi a fi prea confuz) că există un al treilea nivel în spatele celui de-al doilea nivel, adică putem face diferite combinații de astfel de suprafețe de separare, câte trei linii drepte fiecare Bine atunci Să presupunem că te-am convins că rețelele neuronale profunde sunt cu adevărat necesare Dar atunci apare a doua întrebare: care este, de fapt, problema? De ce rețelele profunde, care nu au nimic complex teoretic și care, după cum am văzut deja, au apărut aproape simultan cu algoritmul de backpropagation, au cauzat atât de mult timp asemenea dificultăți? De ce a avut loc revoluția învățării profunde la mijlocul anilor și nu în anii ? Există două răspunsuri la această întrebare Primul este matematic Faptul este că rețelele neuronale profunde pot fi, desigur, antrenate folosind același algoritm de coborâre a gradientului, dar în versiunea de bază, acest lucru nu poate funcționa fără trucuri suplimentare Rețele profunde: care este frumusețea și care este dificultatea? voi Imaginați-vă că ați început să antrenați o rețea profundă cu un algoritm de backpropagation Ultimul nivel cel mai apropiat de ieșiri va învăța destul de repede și foarte bine Dar ce se întâmplă mai departe? În plus, se dovedește că majoritatea neuronilor de la ultimul nivel din toate exemplele de testare au "hotărât" deja valoarea lor, adică producția lor este aproape fie de zero, fie de unu Dacă au o funcție clasică de activare sigmoidală, atunci aceasta înseamnă că derivata acestei funcții de activare este aproape de zero pe ambele părți dar la urma urmei, trebuie să înmulțim toți gradienții din algoritmul de backpropagation cu această derivată! Astfel, se dovedește că ultimul strat antrenat de neuroni "blochează" propagarea gradienților mai în spate de-a lungul graficului de calcul și, ca urmare, straturile anterioare ale rețelei profunde sunt antrenate foarte lent, de fapt, stau nemișcate Acest efect se numește problema gradienților de dispariție Și în capitolul , vom vedea că în cazul rețelelor recurente, care sunt de fapt, prin definiție, foarte adânci, există și o problemă inversă: uneori gradienții pot începe să "explodeze", să crească exponențial pe măsură ce rețeaua neuronală "explodează" ( gradiente de explozie) Ambele probleme apar frecvent, iar pentru o lungă perioadă de timp cercetătorii nu le-au putut rezolva în mod satisfăcător La mijlocul anilor , au apărut primele modele cu adevărat bine funcționale și bine scalate și semănau foarte mult cu mecanismul original Ivakhnenko "modele profunde"! Soluția propusă de grupul lui Hinton [ , , ] a fost să preinstruiască rețelele neuronale strat cu strat cu un caz special al unui model grafic nedirecțional, așa-numita mașină Boltzmann restricționată (RBM) Ideea este că coborârea în gradient, desigur, este bună la găsirea minimului local al unei funcții, iar diferite versiuni inteligente ale coborârii în gradient (vezi secțiunile și ) pot chiar să iasă din minime locale mici și să ajungă la un minim mai mare Dar, totuși, coborârea în gradient este în mod inerent locală, durează doar pași mici într-o direcție sau alta din punctul curent, iar rezultatul depinde foarte mult de inițializare, de la care punct vom pleca Prin urmare, pre-antrenamentul nesupravegheat poate duce la un efect foarte bun: datorită faptului că modelul începe deja să "înțeleagă" încet structura datelor propuse, valorile inițiale ale greutăților nu mai sunt aleatorii, ci destul de rezonabil Astfel de modele au dus la descoperiri mai întâi în recunoașterea vorbirii și apoi în procesarea imaginilor Hmm stai putin Ceva nu se adaugă aici Pe de o parte, am ajuns la concluzia că nu este posibil să antrenăm rețele profunde chiar așa și este necesar să se aplice diverse trucuri, mai întâi antrenând secvențial straturi individuale ale rețelei cu algoritmi complet diferiți și apoi doar local "răsucindu-le" cu coborâre în gradient Cu toate acestea, din anumite motive, jumătate din această carte nu este deloc dedicată învățării capitolul Mașini Boltzmann! Și acest lucru nu se datorează faptului că sunt implicați implicit în antrenamentul fiecărei rețele profunde - nu, bibliotecile folosite pentru învățarea profundă sunt destul de transparente, ele pur și simplu construiesc un grafic de calcul așa cum le cerem să o facă și apoi calculează literalmente gradienții Ce s-a întâmplat, unde au dispărut toate dificultățile din trecut? În primul rând, în comparație cu mijlocul anilor și cu atât mai mult în comparație cu începutul anilor , suntem încă mai capabili să antrenăm rețele neuronale Au apărut o serie de instrumente importante care pot fi atribuite într-un fel sau altul fie regularizării, fie diferitelor modificări de optimizare în rețelele neuronale Capitolul va fi dedicat acestor instrumente: vom vorbi despre regularizare în sine în sensul în care a apărut în Secțiunea , despre abandon și despre normalizarea mini-loturi și despre inițializarea corectă aleatorie a greutăților și despre noi modificări ale coborâre în gradient Mai avem de vorbit despre toate aceste inovații În general, deși modelele de bază ale rețelelor neuronale au venit la noi în multe privințe din anii și chiar din anii ai secolului trecut, acum le antrenăm într-un mod nu cel mai naiv Dar acesta nu este tot adevărul La întrebarea de ce rețelele neuronale profunde au fost greu de antrenat, există un alt răspuns Este foarte simplu și te poate dezamăgi: adevărul este că computerele erau mai lente și erau mult mai puține date disponibile pentru antrenament decât acum Pentru exemplul din secțiunea următoare, acest lucru nu este atât de important; o rețea similară ar putea fi pregătită la începutul anilor Dar aici, de exemplu, antrenamentul sistemului de recunoaștere a vorbirii arăta cam așa: cercetătorii au scris codul și au lansat antrenamentul, care a durat două săptămâni pe computerele de atunci Mai mult, acest antrenament de două săptămâni a avut loc pe setul de date TIMIT clasic, care acum este considerat destul de mic și este folosit pentru experimente rapide Două săptămâni mai târziu, s-au uitat la rezultat, au înțeles că, aparent, a fost necesar să se modifice unul sau altul parametru (și există o mulțime de ei în rețelele neuronale, așa cum vom vedea de mai multe ori), ajustat și a început din nou antrenamentul timp de două săptămâni Bineînțeles, un astfel de mediu nu a contribuit nici la reglarea fină a rețelelor, nici la publicările la timp până la termenele limită adecvate, nici pur și simplu la capacitatea tehnică de a antrena cu succes o rețea neuronală La mijlocul anilor , totul s-a reunit: din punct de vedere tehnic, computerele au devenit suficient de puternice pentru a antrena rețele neuronale mari (mai mult, calculele din rețelele neuronale au învățat curând să delege plăcilor video, ceea ce a accelerat procesul de învățare cu un ordin de mărime), seturi de date a devenit suficient de mare, astfel încât antrenarea rețelelor mari are sens, iar un alt progres are loc în matematica rețelelor neuronale Și așa a început revoluția învățării profunde căreia îi este dedicată întreaga carte În secțiunea următoare, vom oferi un exemplu specific de rețea neuronală care la începutul anilor ar fi fost considerată vârful științei și ar fi fost probabil instruită ore întregi, dar acum constituie un exemplu de bază de utilizare a bibliotecii TensorFlow și poate fi antrenat în câteva zeci de secunde Exemplu: recunoașterea cifrelor scrise de mână pe TensorFlow Exemplu: recunoașterea cifrelor scrise de mână pe TensorFlow Director Hai să facem altceva acum! S-a terminat cu psihologia, să trecem la grafologie Ei îmi răspund; Văd, sunt sigur că acesta valorează cinci Am pariat cinci, am pariat instinctiv cu încredere, cinci mari, în toată celula! Și apoi, știi, un fel de incertitudine este: "De parcă ar fi în valoare de cinci?" Și am pus instinctiv un fel mic de cinci, timid Este, știi, ca un elev de liceu: nu este sigur dacă ar trebui să pună o virgulă, așa că pune o virgulă mică Numără doar cinci mari Cele mici nu contează! V Doroşevici Concurență Mai sus, am spus deja că o rețea neuronală poate fi reprezentată ca un grafic abstract direcționat, ale cărui vârfuri vor fi operații matematice și puncte de intrare și ieșire pentru date și variabile Această idee a fost întruchipată cu succes în cod de mai multe grupuri de cercetători simultan Prima bibliotecă de succes pentru diferențierea automată, care timp de mulți ani a definit peisajul învățării profunde în lume și continuă să-l definească în multe feluri, a fost biblioteca Theano [ , ] (vezi documentația Theano, care conține multe exemple de rețele și, inclusiv inclusiv modele profunde [ ]) Cu toate acestea, în , Google a anunțat lansarea propriei biblioteci open source TensorFlow [ ] Deoarece în acest moment se pare că implementarea TensorFlow este mai convenabilă de utilizat (în special, modelele complexe din Theano durează destul de mult timp pentru a compila, iar în TensorFlow nu există de fapt nicio etapă de compilare), și se poate aștepta, de asemenea, ca Google cercetătorii vor continua să dezvolte proiectul în continuare, în această carte, vom oferi exemple în principal despre TensorFlow În special, în această secțiune, luăm în considerare diferențierea și antrenarea automată a modelelor neuronale folosind exemplul problemei clasice a recunoașterii cifrelor scrise de mână Multe dintre modelele întâlnite în această carte vor fi instruite pe setul de date MNIST [ , ] Acesta este unul dintre cele mai faimoase și mai depășite seturi de date atât în ceea ce privește recunoașterea imaginilor în general, cât și în special în domeniul învățării profunde Până acum, multe modele sunt instruite în primul rând pe MNIST, deși Theano, sau Theano din Croton, a fost una dintre primele femei filozofe care au aparținut școlii pitagoreice Unele surse o numesc soția lui Pitagora, altele - fiica Despre ea s-au păstrat doar informații foarte împrăștiate; conform principalelor versiuni moderne, fie două femei care au trăit în vremuri diferite s-au contopit în această imagine, fie numele Theano a fost un pseudonim pentru autorii de mai târziu care au vrut să aplice învățătura pitagoreică la viața unei femei capitolul Orez Setul de date MNIST: exemple de cifre scrise de mână pentru metodele moderne nu mai prezintă dificultăţi Nici noi nu-l vom ignora MNIST constă din cifre scrise de mână în stil american (vezi Figura pentru câteva exemple de cifre din MNIST) În total, MNIST conține de imagini alb-negru etichetate de x pixeli; "etichetat" aici înseamnă că fiecărei imagini din date i s-a atribuit deja răspunsul corect - numărul pe care persoana din această imagine a vrut să-l înfățișeze Deoarece MNIST este un fel de Hello World pentru procesarea modernă a imaginilor, TensorFlow acceptă acest set de date din cutie și este nevoie de doar două linii de cod pentru a importa MNIST: din tensorflow examples tutorials mnist import input data mnist = input data read data sets("MNIST data/", one hot=True) Datele obținute au fost deja împărțite în eșantioane de antrenament (mnist train), test (mnist test) și validare (mnist validate), care conțin , și, respectiv, de exemple Fiecare dintre aceste mostre constă din imagini cu cifre (mnist train images) și etichetele acestora (mnist train labels); orez prezintă câteva exemple de imagini cu etichete diferite În acest exemplu, nu vom folosi structura D a imaginilor, ci le vom reprezenta ca vectori obișnuiți de În capitolul , vom reveni la acest exemplu și vom arăta cum să folosim corect aranjarea D a pixelilor din imagine și cum poate fi mai eficient, dar deocamdată, pentru nevoile noastre, este suficientă o simplă problemă unidimensională Astfel, setul de antrenament mnist train images poate fi reprezentat ca o matrice de x Rețineți că atât TensorFlow, cât și theano necesită adesea nu numai matrici, ci și reprezentări multidimensionale Geoffrey Hinton a numit MNIST "Drosophila of machine learning", ceea ce înseamnă că MNIST oferă studenților de învățare automată același exemplu bine definit, mic și necomplicat pe care Drosophila îl oferă geneticienilor Exemplu: recunoașterea cifrelor scrise de mână pe TensorFlow date - de exemplu, același MNIST este mai logic de reprezentat sub forma unei "matrici" tridimensionale de dimensiuni x x Astfel de "matrici multidimensionale" în TensorFlow se numesc tensori', ne-am plâns deja mai sus că tensorii nu sunt reale, ci pur și simplu matrice multidimensionale, dar ce puteți face Ca model de antrenament, vom lua în considerare regresia softmax Aceasta este o generalizare a regresiei logistice la cazul claselor multiple: pentru a obține "probabilitățile" claselor pe care dorim să le estimăm, aplicăm așa-numita funcție softmax la vectorul estimărilor nenormalizate rezultate: exp(ah-) sortmax(;r) - = - £expfe) i Ideea funcției softmax este de a ascuți oarecum, de a exagera diferența dintre valorile obținute: softmax va produce valori foarte apropiate de zero pentru toate Xj care sunt semnificativ mai mici decât maximul Ca funcție de pierdere, vom folosi entropia încrucișată standard pentru regresia logistică (entropie încrucișată, entropie încrucișată): Ri( /) = "L/g ° R> i unde y este valoarea pe care am prezis-o și t este marcajul original (răspunsul corect) Am discutat în detaliu entropia încrucișată în Secțiunea Pentru comoditate, etichetele de imagine pot fi reprezentate ca așa-numiții vectori one-hot - vectori în care unitatea este în poziția corespunzătoare etichetei originale, iar zerourile sunt în pozițiile rămase De exemplu, vectorul [ , , , , , , ] va corespunde răspunsului Apoi mnist train labels este un tensor (matrice) de x De obicei, în Python, pentru calcule complexe se folosesc biblioteci auxiliare pentru calcule numerice, cum ar fi NumPy ', astfel de biblioteci efectuează operaţii costisitoare (de exemplu, înmulţirea matricei) nu prin interpretul Python în sine, ci prin utilizarea codului optimizat scris în alte limbi ​(de obicei C sau Fortran) Din păcate, chiar și comutarea între operațiuni în și în afara Python poate fi prea costisitoare, mai ales când vine vorba de calculul GPU Deci, în loc să fie nevoit să efectueze fiecare operație individuală independent de Python, TensorFlow oferă capacitatea de a descrie un grafic de calcul în Python și apoi de a rula întregul model în afara lui Python Pentru a utiliza TensorFlow, mai întâi trebuie să îl importați: import tensorflow ca tf În TensorFlow, operațiile necesare sunt exprimate folosind variabile simbolice, așa că haideți să creăm o variabilă pentru datele de antrenament: x = tf placeholder(tf float , [Niciun, ]) capitolul În acest caz, x nu este un tensor predefinit, ci un așa-numit substituent pe care îl vom completa atunci când îi vom cere TensorFlow să efectueze calcule Dorim să putem folosi un număr arbitrar de vectori de dimensionale pentru antrenament, așa că specificăm Nici unul ca una dintre dimensiuni Pentru TensorFlow, aceasta înseamnă că o anumită dimensiune poate avea o lungime arbitrară Pe lângă stub-ul pentru datele de antrenament, avem nevoie și de variabile pe care le vom schimba de fapt atunci când ne antrenăm modelul Și = tf Variable(tf zeros([ , ])) b = tf Variable(tf zeros([ ])) Aici W este x pentru că vom înmulți un vector cu W pentru a obține o predicție pentru etichete posibile, iar vectorul b este interceptarea, polarizarea, pe care o adăugăm la rezultat După ce am importat modulele necesare și am declarat toate variabilele, modelul nostru TensorFlow în sine poate fi scris într-o singură linie! y = tf nn softmax(tf matmul(x, W) + b) Mai întâi înmulțim matricele x și W cu tf matmul(x,W), apoi adăugăm b la rezultat și folosim tf nn softmax pentru a obține probabilitățile clasei Pentru a antrena modelul, trebuie de asemenea să reparăm o modalitate de a evalua calitatea predicțiilor (această estimare o vom optimiza în cele din urmă) Să descriem acum funcția de pierdere în termeni de TensorFlow Pentru marcajul inițial, avem nevoie de un stub: y = tf placeholder(tf float , [Niciunul, ]) Și acum funcția de pierdere poate fi scrisă și pe o singură linie: cross entropie = tf reduce mean( -tf reduce sum(y * tf log(y), reduce indexes=[l])) Să aruncăm o privire mai atentă la această linie (nu vom mai face asta mai târziu, dar poate că nu va strica o dată) Să vedem ce se va întâmpla, secvenţial, de la operaţiunile interne la cele externe: • mai întâi calculăm tf log(y), logaritmul fiecărui element al lui y; • apoi înmulțim fiecare element al lui y cu tf corespunzător log(y) (operația de multiplicare pe vectori, matrice și tensori se înțelege aici component cu component); • apoi însumăm rezultatul cu tf reduce sum pe a doua dimensiune; reamintim că prima dimensiune este exemple din setul de testare sau validare, iar a doua este posibile clase, adică rezumăm nu prin exemple, ci prin dimensiunea fiecărui vector y, pentru aceasta am specificat reduction indexes = [l] ca un parametru; Exemplu: recunoașterea cifrelor scrise de mână pe TensorFlow Orez Cum sunt efectuate calculele într-un model care antrenează regresia logistică atunci când se utilizează biblioteca TensorFlow • şi în final, ultima operaţie tf reduce mean calculează media tuturor exemplelor din eșantion Acum că știm ce dorim de la modelul nostru, putem cere TensorFlow să optimizeze această caracteristică Da, atât de simplu Am descris deja pe deplin graficul de calcul în termeni înțeleși de TensorFlow, toate nodurile din acest grafic conțin funcții clasice cunoscute, ale căror gradienți, desigur, sunt deja implementate în TensorFlow, iar biblioteca poate folosi algoritmul de backpropagation pentru a calcula gradienții, aflați cum ponderile afectează funcția de pierdere pe care dorim să o minimizăm și apoi aplicați un algoritm de optimizare pentru a rafina acele ponderi Pentru a antrena modelul, vom folosi metoda de coborâre a gradientului cu o rată de învățare de , : train step = tf train GradientDescentOptimizer( ) minimize(cross enthill) O ilustrație, după cum știți, valorează cât o mie de cuvinte, așa că am descris logica programului pe care tocmai l-am scris în Fig Această diagramă arată ordinea în care modelul este construit și calculat în el: mai întâi, imaginea de intrare este convertită într-un vector cu de dimensiuni, apoi trece la stratul logit, care calculează de fapt estimările modelului nostru pentru evenimentele asociate cu diferite clase, apoi softmax- funcția normalizează aceste scoruri la un vector similar vectorului de probabilitate Apoi, împreună cu adevăratele etichete de clasă care au venit din datele de antrenament, intră în intrare capitolul o funcție care calculează entropia încrucișată; aceasta este funcția noastră de eroare, din care trebuie să luăm derivate parțiale Din fericire, TensorFlow se ocupă de diferențierea automată, iar noi pur și simplu ascundem ce se întâmplă în nodul Gradients După aceea, rămâne doar să transformați valorile gradienților în regulile reale pentru recalcularea greutăților și totul este gata, puteți modifica greutățile w logit și b logit la fiecare pas al coborârii gradientului stocastic Înainte de a începe antrenamentul, rămâne să inițializați variabilele: init = tf initialize global variables() Acum suntem pregătiți să începem antrenamentele Pentru a face acest lucru, creăm o sesiune TensorFlow sess = tf Session() sess run(init) si este timpul sa lansam! pentru i în interval ( ): batch xs, batch ys = mnist train next batch( ) sess run(train step, feed dict={x: batch xs, y : batch ys}) La fiecare iterație a buclei, selectăm aleatoriu de exemple din setul de antrenament și le transmitem funcției train step pentru antrenament Am discutat deja despre această abordare - aceasta este o coborâre tipică a gradientului stocastic; în acest caz, îl folosim deoarece eșantionul de antrenament este prea mare pentru a-l parcurge în întregime la fiecare pas de antrenament (de fapt, acesta va fi întotdeauna cazul pentru orice date de cel puțin o dimensiune reală) În schimb, alegem de fiecare dată un set mic, nou, aleatoriu de date de antrenament și îl folosim Rămâne să înțelegem cât de bine suntem acum capabili să recunoaștem numerele scrise de mână Modelul produce în prezent predicții sub formă de softmax-results - numere însumate la unu, reflectând încrederea modelului într-un anumit răspuns Pentru a înțelege ce etichetă am prezis pentru următoarea imagine, putem pur și simplu să luăm valoarea maximă din aceste rezultate În TensorFlow, aceasta este exprimată ca tf argmax, o funcție care returnează poziția elementului maxim în tensor de-a lungul axei date Pentru a înțelege dacă am prezis corect eticheta, este suficient să comparăm pur și simplu tf argmax(y, ) și tf argmax(y , ) între ele: predictie corecta = tf equal(tf argmax(y, ), tf argmax(y , )) Aceasta afișează o listă de valori booleene care indică dacă rezultatul a fost prezis corect sau incorect; precizia finală poate fi, de exemplu, valoarea medie a vectorului corespunzător: Aici, desigur, ne-ar plăcea să considerăm pur și simplu rezultatele regresiei softmax ca probabilități de clasă, dar nu ar trebui să fim tentați: formula funcției softmax nu este ușor de interpretat într-un mod probabilistic, iar aceste valori ​nu seamănă foarte mult cu probabilitățile Exemplu: recunoașterea cifrelor scrise de mână pe TensorFlow Orez Grafice ale modificării funcției de eroare și ale preciziei pe seturile de antrenament și de testare pe măsură ce modelul este antrenat n ! Și asta înseamnă că atunci când luăm produsul peste toate straturile rețelei, se dovedește că toți termenii din mijloc se anulează, iar factorul de modificare a varianței devine egal cu ( ) ( ) ( ) (Ll) (L) mmm m m ( ) ( ) ( ) • • • (Ll) (L) ( ) ( ) ( ) • • • %Ut %Ut %Ut %Ut %Ut ( ) ( ) ( ) (Ll) (L) ( ) mmm m m m (L)(L) (L)' nin n> n> nm mm unde este numărul de ieșiri ale ultimului strat al rețelei și n>n este numărul de intrări ale primului strat Este clar că oricare ar fi acest raport, nu mai este o funcție exponențială a numărului de straturi de rețea și nu duce la atenuare sau creștere excesivă a gradienților Aceasta înseamnă că numai constrângerea din backpropagation poate fi utilizată pentru inițializare, iar constrângerea forward poate fi ignorată Am văzut deja că biblioteca Keras implementează capacitatea de a inițializa straturi folosind metoda Xavier În același mod, folosind parametrii init="he uniform" sau init="he normal", puteți seta inițializarea lui Xe, iar în acest caz, așa cum am explicat mai sus, dispersia în acest caz va depinde numai de numărul de neuronii din acest strat Rezumatul scurt al acestei secțiuni este foarte simplu: pentru funcțiile de activare simetrică cu medie zero (în mare parte tanh), utilizați inițializarea Xavier, iar pentru ReLU și altele asemenea, utilizați inițializarea Xe Ca urmare a unei astfel de inițializare aleatorie, se dovedește că pregătirea preliminară nesupravegheată nu îmbunătățește nimic și este complet lipsită de sens, dar de obicei prea complicată și consumatoare de timp: de fapt trebuie să antrenezi un model complet diferit, sau chiar o secvență de modele, adesea fragile si greu de invatat Îmbunătățirile moderne ale metodelor de optimizare a rețelelor neuronale profunde sunt destul de capabile să înlocuiască preînvățarea nesupravegheată Una dintre aceste îmbunătățiri este o bună inițializare aleatorie și trecem la alta în paragraful următor: ne așteaptă normalizarea prin mini-lot Normalizare prin mini-lot Normalizare prin mini-lot Totul e bine Cad! Din filmul "Numai bătrânii merg la luptă" - Bine, Gregory! Excelent, Constantin! M Zhvanetsky În această secțiune, vom discuta o altă idee care a transformat lumea antrenării rețelelor neuronale profunde Sună ciudat, dar este adevărat: ideea de normalizare prin mini-loturi (normalizare pe lot), pe care o prezentăm aici, a apărut destul de recent și nu este nimic atât de complicat Dar s-a dovedit rapid că într-adevăr poate îmbunătăți învățarea într-o gamă foarte largă de arhitecturi, iar acum este folosit tot timpul Prezentarea noastră urmează articolul original al lui Sergey Loffe și Christian Szegedy despre normalizarea mini-loturi publicat în [ ]; După cum puteți vedea, în formarea în rețea profundă, ideile proaspete bune se pot răspândi foarte repede Am discutat deja de multe ori că atunci când antrenăm rețele neuronale, un pas de coborâre a gradientului se face de obicei nu pe un singur punct de date de intrare, ci pe un mini-lot, adică pe o mică colecție de date, care este de obicei selectată aleatoriu din întregul set de antrenament Din punct de vedere al optimizării, această abordare are mai multe avantaje În primul rând, media gradientului pe mai multe exemple este o aproximare a gradientului pe întregul set de antrenament și cu cât sunt utilizate mai multe exemple într-un mini-lot, cu atât este mai precisă această aproximare Precizia maximă de aproximare ar fi atinsă, desigur, dacă am face fiecare pas pe întregul set de date de antrenament odată, dar o astfel de acuratețe este de obicei de neatins din punct de vedere computațional În al doilea rând, rețelele neuronale profunde implică un număr mare de acțiuni secvențiale cu fiecare exemplu, iar hardware-ul modern multi-threaded permite ca această secvență lungă de acțiuni să fie aplicată simultan unui număr suficient de mare de exemple în paralel; un astfel de efect, desigur, este deosebit de important atunci când se mută algoritmii de învățare pe plăcile video Dar, în același timp, adâncimea rețelelor duce la următoarea problemă Dacă greutățile unuia dintre primele straturi se modifică la următoarea etapă a coborârii gradientului, atunci aceasta duce inevitabil la o schimbare a distribuției activărilor ieșirilor acestui strat Aceasta înseamnă că toate straturile ulterioare trebuie să se adapteze la datele nou distribuite Am ilustrat acest efect în fig , care arată cel mai simplu neuron al primului strat cu două intrări și neliniaritate sub formă de tanh: y - tanh (wq + wixi + W X ) • capitolul Orez Un exemplu de deplasare internă a variabilelor: a - structura primului strat al rețelei și distribuțiile de intrare; b - rezultat pentru doi vectori de greutate diferiți O - , - , - , - , , , , , , Pe fig , a prezintă schema generală de calcule și distribuțiile intrărilor acestui neuron pe care le-am ales: distribuții normale cu mediile și - și varianța A din fig , b arată distribuția a ieșirilor neuronilor pentru două cazuri diferite: pentru greutăți w = (wq, wi, W ) = și pentru greutăți w = As vezi, rezultatele sunt complet diferite, iar acest lucru este absolut normal și de așteptat: chiar ne-am dori ca neuronii noștri să învețe în timp! Și este logic ca rezultatele lor să se schimbe în timpul antrenamentului Cu toate acestea, ce se întâmplă atunci când un neuron începe să învețe, în ceea ce privește neuronii de nivelul următor? În primul rând, cu un vector de greutate de ( , |) și astfel, neuronul de nivel următor a primit ceva ca o distribuție normală cu medie zero ca intrare A învățat bine să răspundă la intrările din intervalul [- , |], dar nu a învățat să răspundă altora: nu era nevoie și nici o oportunitate, pentru că nu existau astfel de exemple de antrenament Și apoi, când vectorul de greutate s-a deplasat și s-a transformat în ieșirea unui neuron de primul nivel, aproape întotdeauna fi dat în intervalul [|, ] și mai aproape de unitate Se dovedește că tot ceea ce a fost antrenat neuronul de al doilea nivel înainte a devenit aproape inutil: intrările sale sunt acum preluate dintr-o zonă complet nouă și, de fapt, trebuie antrenat din nou Această problemă se numește deplasare internă a variabilelor (deplasare internai sova-riance) Pe lângă faptul că trebuie să reantreneze neuronii, deplasarea internă duce la o altă problemă, despre care am discutat în Secțiunea Noi Distribuția aici este empirică: am eșantionat zece mii de puncte din distribuțiile de intrare și am desenat o histogramă a rezultatelor Normalizare prin mini-lot Am văzut că de foarte multe ori rețelele neuronale folosesc funcții de activare sigmoidală, una dintre caracteristicile cărora este "saturarea" valorilor funcțiilor de activare atunci când intrările lor primesc valori mari în valoare absolută De exemplu, în exemplul nostru pentru f(x) = tanh(x), ca |x| derivata f'(x) tinde destul de repede spre zero, iar ieșirile neuronului corespunzătoare greutăților w = sunt deja destul de evident "lipite" de una și au o varianță mult mai mică decât pentru w = ( ,|,|) O modificare a distribuției valorilor de activare a stratului următor în direcția creșterii valorilor absolute poate duce apoi la faptul că în straturile ulterioare funcțiile de activare "saturează", iar gradienții vor fi dificil să treacă derivatele lor zero O parte din această problemă poate fi rezolvată prin înlocuirea funcțiilor de activare sigmoidală cu ReLU, dar aceasta nu este singura și nu întotdeauna adecvată Desigur, problema deplasării variabilelor nu este specifică rețelelor neuronale profunde În învățarea automată clasică, problema a apărut de obicei sub această formă: adesea distribuția datelor în setul de testare (adică deja la aplicarea modelului) poate diferi semnificativ de distribuția datelor în setul de antrenament Această problemă a făcut obiectul unei atenții deosebite a cercetătorilor; vezi, de exemplu, lucrările [ , , , , ] și chiar o întreagă carte separată [ ] dedicată în întregime deplasării variabilelor Au fost propuse diverse metode, dar una dintre principalele a fost întotdeauna normalizarea datelor într-o formă sau alta În rețelele neuronale clasice s-a folosit și normalizarea: datorită studiilor [ , ], se știe că procesul de învățare converge mai repede atunci când intrările din rețea sunt albite, adică media lor este redusă la zero, iar matricea de covarianță este redusă la unitate Aceasta este și ideea de normalizare în rețelele profunde: dacă operația de "albire" este aplicată intrărilor fiecărui strat, aceasta va evita problema deplasării variabilelor Normalizarea intrărilor ajută adesea și, înainte de antrenamentul rețelelor neuronale, este, de asemenea, de dorit să o faceți Totuși, dacă pur și simplu normalizăm intrările următorului strat din rețea la fiecare pas de antrenament, fără a ține cont de această operațiune în timpul antrenamentului, acest lucru nu va duce la nimic bun Imaginați-vă un strat care adaugă un offset b la intrările sale u O putem normaliza prin scăderea mediei de activare: x - x - E [g], unde x = u + b și E [x] = xi pentru un set de date de N puncte La următorul pas de coborâre a gradientului, parametrul b va fi actualizat, b := b + A Cu toate acestea, este ușor de observat că valoarea lui x va rămâne aceeași: u + b + D - E [u + b + A ] - u + b - E [ma + ] Apropo, această construcție este foarte asemănătoare cu ideea de bază a învățării reziduale, pe care o vom discuta în Secțiunea capitolul Și asta înseamnă că, în ciuda modificării parametrului, activarea normalizată a stratului nu s-a schimbat! Deci acum această situație se va repeta și, ca urmare, valoarea absolută a lui b va crește la infinit Acest exemplu sugerează că normalizarea trebuie luată în considerare în coborârea gradientului Dar ce înseamnă acest lucru în termeni de propagare a gradienților pe un grafic? Să introducem un strat de normalizare: x - Norm(a?, A), ai cărui parametri nu sunt doar exemplul curent de antrenament x, ci și toate exemplele din eșantionul de antrenament X Prin urmare, pentru pasul de coborâre a gradientului, trebuie să calculăm jacobienii și, mai mult, pur și simplu sărirea peste al doilea dintre ei nu va funcționa - obținem o "explozie" de coeficienți conform schemei descrise mai sus În plus, pentru operația de "albire" (decorelare) în sine, trebuie să calculăm matricea de covarianță: Сѵ [g] \u d Arici; ѵ - E [g] E [g] T, apoi se inversează și se calculează rădăcina pătrată din ea, iar cu coborâre în gradient, și derivatele unei astfel de transformări În cele din urmă, acest lucru are ca rezultat costuri de calcul suplimentare exorbitante și devine evident că ponderile trebuie normalizate într-un fel diferit Deoarece decorelarea cu drepturi depline pentru fiecare strat nu poate fi realizată într-un timp rezonabil, în special pentru seturi de date mari, în practică, în loc să decorelați toți neuronii stratului împreună, fiecare element al vectorului de intrare este normalizat separat Aceasta înseamnă că vectorul w după normalizare va arăta astfel: Xfc - E [hk \ х - (хі, , xj) unde хк - - UVASP Desigur, aș dori să calculez media și varianța din ultima formulă imediat pe întregul set de date, dar acest lucru va fi complet imposibil din punct de vedere computațional - fiecare calcul va necesita întregul set de date! Deci vom calcula E [xk\ și Var (x&) prin mini-lotul curent, iar această abordare se numește normalizare prin mini-lot În ciuda faptului că corelațiile dintre caracteristicile dintr-un strat pot fi păstrate cu această abordare, se știe încă de la sfârșitul anilor ai secolului trecut că această abordare accelerează convergența antrenării rețelelor neuronale [ ] Cu toate acestea, pe lângă avantajele evidente, această abordare are și unele dezavantaje mai puțin evidente Dacă funcția de activare este o funcție sigmoidă, cum ar fi sigmoidul logistic a(x) = +e-x "T " atunci când îi normalizăm argumentul, vom vedea că neliniaritatea a dispărut în esență: marea majoritate a valorilor normalizate va cădea în regiune Normalizare prin mini-lot unde sigmoidul se comportă foarte mult ca o funcție liniară și funcția de activare va deveni de fapt liniară Vom reveni în capitolele ulterioare asupra faptului că capacitatea unei rețele neuronale de a învăța să reproducă o funcție identică poate juca un rol semnificativ în învățare Pentru a compensa aceste neajunsuri, stratul de normalizare trebuie să poată funcționa ca o funcție identică, adică pentru unele combinații de parametri, trebuie să nu poată face literalmente nimic cu intrările Pentru a face acest lucru posibil, introducem parametri suplimentari în stratul de normalizare și /Zd pentru a scala și a schimba activarea normalizată pe fiecare componentă: xx - E\chi] Uk \u d n + /% \u d fc, g + Pk- ѴҴагЫ Acești parametri vor fi antrenați împreună cu toți ceilalți parametri ai rețelei neuronale; adaugă "grade de libertate" care permit restabilirea puterii expresive a rețelei în ansamblu În special, acum stratul de normalizare poate învăța să implementeze funcția identică: acum este suficient să punem = ^/var[;r(fc)] și = E [ Ultima notă mică este că, în practică, pentru a evita împărțirea la zero în timpul normalizării, la varianță se adaugă o mică valoare constantă a lui e Acum putem descrie în mod oficial stratul de normalizare a lotului Stratul primește următorul mini-lot В = {хі, ,Жт} ca intrare și apoi secvenţial: • calculează statistici de bază pentru un mini-lot: TP TP vv \u d - U? av = - U? (Xi ~ ^v) ; m m I= I= • normalizează intrările: l Xi - b xi - / •> \]cr'v + e • calculează rezultatul: Ui \u d ^ + / - Am putea da formule pentru învățare, calculând modul în care gradientul funcției de eroare va fi trecut prin acest strat și care vor fi derivatele față de noii parametri y și / dar nu vom: de ce să aglomeram cartea cu calcule destul de simple care au fost deja implementate de multe ori în orice bibliotecă standard de diferențiere automată Suntem siguri că până în acest moment cititorul interesat este destul de capabil să ia singur derivate ale acestor funcții capitolul Orez Normalizare înainte și după neliniaritate: (a) grafice de calcul în ambele cazuri; b - rezultatele prelevării Este timpul să trecem la practică Dar mai întâi, rețineți că normalizarea se poate face în momente diferite În special, nu există încă o opinie bine stabilită cu privire la întrebarea dacă este mai bine să o faci după următorul strat sau după partea liniară a stratului, înainte de funcția de activare neliniară Ca o ilustrare a acestui lucru, în fig Figura prezintă rezultatele normalizării înainte și după neliniaritate în exemplul nostru din fig După cum puteți vedea, efectul este diferit; în special, în mod natural, intervalul în varianta de normalizare după neliniaritatea sigmoidală va fi mai larg decât dacă este normalizat la neliniaritate, deoarece tanh sau a va returna din nou rezultate normalizate la intervalul [- , ] sau [ , ], respectiv Și acum avem totul gata să trecem la experiment și să arătăm clar prin exemplu de ce este necesară normalizarea prin mini-lot Îi vom testa eficacitatea cu exemplul nostru obișnuit, clasificând cifrele scrise de mână pe setul de date MNIST Pentru a face acest lucru, vom construi un model simplu complet conectat cu un strat suplimentar de normalizare prin mini-lot În această secțiune, exemplul va fi pe TensorFlow pur, dar în Keras, desigur, este implementată și normalizarea prin mini-loturi - acolo ar fi doar un strat suplimentar numit keras layers normalization BatchNormalization Mai întâi, să importăm tot ce avem nevoie: import tensorflow ca tf din tensorflow examples tutortals mnist import input data mnist = input data read data sets("MNIST data/", one hot=True) Normalizare prin mini-lot Pentru a nu efectua de multe ori același tip de operații, vom seta funcții pentru declararea unui layer complet conectat și a unui layer de normalizare prin mini-lot Un strat complet conectat este definit într-un mod care ne este familiar de mult timp: def fully connected layer(tensor, input size, out size): W = tf Variable(tf truncated normal([input size, out size], stddev= )) b = tf Variable(tf truncated normal([out size], stddev= )) return tf nn tanh(tf matmul(tensor, W) + b) Și pentru a seta un strat de normalizare, mai întâi trebuie să calculați statisticile corespunzătoare și să declarați variabile, apoi, așa cum este adesea cazul, să utilizați o funcție gata făcută din biblioteca TensorFlow: def batchnorm layer(tensor, dimensiune): batch mean, batch var = tf nn moments(tensor, [ ]) beta = tf Variable(tf zeros([size])) scale = tf Variable(tf one([size])) return tf nn batch normalization( tensor, batch mean, batch var, beta, scale, , ) Pentru experiment, un model foarte simplu ne va fi suficient: vom lua o rețea neuronală complet conectată cu dimensiunile straturilor de , , și Primul strat sunt intrările, unde furnizăm valorile pixelilor imaginii, ultimul este stratul de ieșire, câte un neuron pentru fiecare dintre clasele posibile de imagini (adică numere scrise de mână de la la ) Între straturile intermediare, vom introduce un strat de normalizare prin mini-lot x = tf placeholder(tf float , [None, ]) hl = fully connected layer(x, , ) hl bn = batchnorm layer(hl, ) h = fully connected layer(hl bn, , ) fully connected layer = fully connected layer (h , , ) Pentru antrenament, rămâne doar să setați funcția de eroare și metoda de optimizare: pierdere = tf nn sigmoid cross entropy with logits(y logit, y) train op = tf train GradientDescentOptimizer( ) minimize(pierdere) Pentru a evalua efectul adăugării unui strat de normalizare prin mini-lot, am comparat modelul descris mai sus cu unul identic, dar fără un strat de normalizare suplimentar Graficele din fig sunt dispuse în același mod ca în Fig : numărul de epoci de antrenament este reprezentat de-a lungul axei orizontale, iar valoarea funcției de eroare (stânga) și precizia (assigasu) predicției modelului pe setul de testare (dreapta) sunt reprezentate de-a lungul axei verticale Din nou, zona umbrită din jurul curbelor arată varianța Se poate observa că modelul cu stratul de normalizare mini-loturi arată rezultate bune aproape imediat și se apropie rapid de marca de precizie de %, în timp ce modelul obișnuit progresează mult mai lent Abia când a apărut, normalizarea prin mini-lot a făcut mult zgomot Pentru majoritatea arhitecturilor clasice, adăugarea de normalizare a dat un foarte capitolul , , , , , , O Orez Comparație de rețea cu și fără normalizare mini-loturi împinge puternic înainte Normalizarea prin mini-lot a făcut posibilă antrenarea unor arhitecturi atât de profunde precum înception și ResNet În doar un an, normalizarea mini-loturi nu doar că a intrat în instrumentele de bază ale specialiștilor în învățarea profundă, ci a devenit și unul dintre elementele cheie în formarea rețelelor neuronale cu adevărat profunde În restul acestei secțiuni, vom analiza unele dintre cele mai recente rezultate privind normalizarea care continuă și dezvoltă ideea de normalizare mini-loturi Prima problemă cu normalizarea mini-loturi a fost că, în cazul rețelelor recurente, spre deosebire de rețelele complet conectate și convoluționale, totul s-a dovedit a nu fi atât de simplu Să omitem diferitele arhitecturi ale modulelor recurente și să luăm în considerare doar construcția cea mai generală: primind o secvență de vectori ca intrare, rețeaua recurentă produce o secvență de state (Тіі, ,ht), calculându-le pas cu pas în felul următor: ht = f(Whht + Wxxt) unde / este funcția de activare neliniară, este matricea de greutate recurentă și Wx este matricea de greutate pentru intrări Studii detaliate au arătat [ ] că utilizarea unui strat de normalizare pentru mini-loturi "head-on" nu aduce beneficii rețelelor recurente Experimentați cu normalizarea în următoarea formă: ht = f(B^(Whht r) + Wxxt) au arătat rezultate puțin mai rele decât cele ale unei rețele pure recurente Este foarte logic să discutăm aici rezultatele moderne și opțiunile de normalizare, dar pentru a le explica, va trebui să ne referim la înțelegerea generală a rețelelor neuronale recurente Vom vorbi despre asta în detaliu în Capitolul , dar deocamdată, dacă restul secțiunii este dificil, poate fi omis fără probleme pentru o înțelegere ulterioară Normalizare prin mini-lot Unul dintre principalele motive pentru acest eșec este că distribuția activărilor straturilor ascunse poate varia foarte mult atunci când aceeași transformare recurentă este aplicată succesiv unei secvențe de intrări În esență, aceasta înseamnă că are sens să se alinieze starea ascunsă a rețelei "de-a lungul timpului", deoarece diferența dintre stările din diferite stadii de procesare a secvenței este ideea și semnificația principală a rețelei recurente Prin urmare, primul rezultat pozitiv al aplicării normalizării mini-loturi la rețelele recurente a fost obținut de o echipă de autori de la Universitatea din Montreal în primăvara anului [ ] Ideea cheie aici a fost de a aplica normalizarea pentru fiecare moment în timp separat De fapt, nu antrenăm o pereche de parametri ( și y), ci seturi ( = (/ i, ,/ y) și y = În plus, Autorii au separat normalizarea stratului ascuns de normalizarea intrărilor, oferind o variantă: ht = + VK(ІУЖ^;&, Ж)), ceea ce a condus în cele din urmă la o accelerare semnificativă a învățării și la îmbunătățirea calității modelelor pentru o astfel de sarcină precum modelarea limbajului literă cu literă (o vom discuta în detaliu în Secțiunea ) În ciuda succesului uriaș al normalizării mini-loturi, această abordare a avut încă o serie de probleme Dificultățile utilizării unui strat de normalizare în rețelele recurente nu se limitează la necesitatea de a antrena parametri separați pentru fiecare pas de timp În special, o lungime variabilă a secvenței de intrare este naturală pentru rețelele recurente, atunci când T diferă de la intrare la intrare (de exemplu, propoziții în limbaj natural, codificate cuvânt cu cuvânt, adică T este numărul de cuvinte dintr-o propoziție, pot fi transmise la intrare) Aceasta înseamnă că normalizarea etapelor de timp ulterioare poate să nu fie atât de ușor de antrenat: majoritatea exemplelor din setul de antrenament vor fi de lungime mică, ceea ce duce la restricții serioase privind utilizarea rețelei neuronale recurente antrenate, deoarece pe elementele ulterioare a secvenței nu vom mai putea aplica normalizarea În plus, dacă modulul recurent, indiferent de lungimea secvenței de intrare, are un număr fix de parametri antrenabili, atunci normalizarea prin mini-loturi cu referire la timp adaugă un număr de parametri proporțional cu lungimea maximă a secvenței de intrare, ceea ce înseamnă că parametrii de normalizare pot deveni prohibitivi pentru secvenţe lungi multe de Și chiar dacă lăsăm deoparte problemele aplicării normalizării prin mini-lot în mod specific rețelelor recurente, există totuși o limitare impusă de nivelul de normalizare asupra dimensiunii lotului, deoarece o bună estimare a statisticilor poate necesita un număr mare de exemple În special, este evident că normalizarea mini-loturi nu poate fi aplicată atunci când antrenamentul este efectuat pe fiecare exemplu separat capitolul Toate aceste probleme au dus la o nouă privire asupra normalizării, propusă în vara lui de cercetătorii de la Universitatea din Toronto (ca de obicei, Geoffrey Hinton a fost implicat) [ ] În această lucrare, se propune normalizarea activărilor de rețea nu "prin mini-lot", ci "pe strat", folosind statistici separate pentru fiecare element al secvenței, dar învățând parametrii generali: unde a - +Wxxt sunt activări înainte de aplicarea neliniarității / și a statisticilor d? și (jt sunt calculate din activările stratului ca unde H este dimensiunea stratului ascuns Parametrii d și b sunt antrenați în cursul pregătirii rețelei împreună cu parametrii principali Pe o serie de probleme de învățare automată care utilizează rețele recurente, această abordare a normalizării a arătat rezultate comparabile cu normalizarea loturilor sau puțin mai bune, dar, în același timp, normalizarea pe strat a făcut posibilă reducerea timpului de antrenament și evitarea problemelor atunci când lucrați cu loturi mici După cum puteți vedea, normalizarea ajută în multe feluri Am discutat deja despre normalizarea activării neuronilor prin exemple într-un mini-lot și prin neuroni într-un strat Ultimul element important rămâne - ponderile rețelei Recent, Tim Salimans și Diederik Kingma de la OrenAI au publicat un studiu privind efectul normalizării greutății asupra procesului de învățare al unei rețele neuronale Abordarea propusă de ei este similară cu normalizarea pe lot sau pe strat, totuși, coeficientul de reparametrizare (normalizare) este calculat luând în considerare greutățile următorului strat, și nu activarea acestuia: hi = / ( x + bi] , \ІЫІ J unde Wi sunt greutățile combinației liniare a neuronului i, bі este părtinirea acestuia și \\wi\\ denotă norma euclidiană a vectorului de greutate După o astfel de reparametrizare, norma vectorului de greutate se dovedește a fi exact egală cu y, iar rețeaua neuronală antrenează și acest parametru împreună cu cei principali Să notăm "noile" greutăți ale rețelei cu ѵ = w Atunci gradientul funcției de eroare L față de y este egal cu wTVvL ІНІ ' unde V ; L este gradientul obișnuit peste greutățile rețelei Normalizare prin mini-lot Și gradientul funcției de eroare în raport cu ponderile inițiale este - C C VVL III v b iar aceasta, substituind expresia pentru V D, poate fi rescris ca = MvVvL,INI undem"=І-^ denotă matricea de proiecție pe complementul vectorului ѵ De fapt, normalizarea greutăților face două lucruri: • scala gradientul cu greutatea gf w ; • "inversează" gradientul față de vectorul greutăților curente Ambele efecte aduc matricea de covarianță a gradientului mai aproape de unitate, ceea ce permite obținerea anumitor avantaje în antrenament Să aruncăm o privire mai atentă la ce se întâmplă cu greutățile cu această abordare La următorul pas de învățare să actualizăm ponderile conform formulei naturale w' = w + Aw, unde Aw oc VWL Apoi, datorită ortogonalității gradienților față de greutăți, norma || w || va crește treptat, conform teoremei lui Pitagora Mai precis, dacă = c, atunci ||wz|| = l/ + s | w|| Rata de creștere în acest caz va depinde de varianța gradienților: cu cât varianța este mai mare, cu atât este mai mare II Aw|| și, prin urmare, și c, care la rândul său duce la o scădere Dacă varianța gradienților este mică, atunci \/ + c Ca rezultat, acest mecanism permite rețelei neuronale să stabilizeze în mod independent norma gradienților În plus, faptul de rezistență stabilit empiric la alegerea ratei de învățare s-a dovedit a fi un plus plăcut De fapt, s-a dovedit că, datorită capacității de a schimba norma de greutate și, prin urmare, factorul de scalare a gradientului, rețeaua a fost capabilă să compenseze valori prea mari sau prea mici ale parametrului ratei de învățare Și în [ ], câțiva oameni de știință germani din grupul lui Jurgen Schmidhuber au dezvoltat așa-numitele rețele neuronale de auto-normalizare (SNN) S-a dovedit că puteți adăuga proprietăți de normalizare direct la funcția de activare a neuronului și pentru aceasta este suficient să utilizați o funcție exponențială scalată: SELU(" = L Ei bine, dacă x > , aex - a dacă x \/ ^t,ii + unde Gt este o matrice diagonală, fiecare element fiind suma gradienților pătrați ai parametrului corespunzător din pașii anteriori, adică: Gt,a = Gt-igi + g^ a b este un parametru de netezire pentru a evita împărțirea la zero Interesant, dacă nu luați rădăcina pătrată în numitor, algoritmul va funcționa mai rău capitolul Deoarece operațiile sunt aceleași pentru toate coordonatele, putem vectoriza aceste expresii astfel: Ut ~ /g \/ + cu Aici și mai jos, vom presupune că operațiile de luare a rădăcinii și înmulțire continuă la vectori componentă cu componentă În pseudocod, Adagrad ar putea arăta cam așa: g cached += grad** u = -learning rate * grad / (np sqrt(g cached) + eps) theta += u Unul dintre avantajele lui Adagrad este că nu mai trebuie să vă faceți griji cu privire la parametrul ratei de învățare tu, deoarece elementele diagonale ale lui G sunt, de fapt, ratele individuale de învățare pentru fiecare Ѳ Prin urmare, valoarea standard a lui mu = , este de obicei folosită pentru mu, dar acest lucru nu contează foarte mult, deci nu este necesar să o ajustați Și principalul dezavantaj poate fi văzut dacă acordați atenție faptului că q este întotdeauna pozitiv, ceea ce înseamnă că valorile lui G cresc constant Acest lucru duce la faptul că rata de învățare scade uneori prea repede și în cele din urmă devine prea mică, ceea ce este rău pentru antrenarea rețelelor neuronale profunde Un alt dezavantaj este că rata globală de învățare în Adagrad trebuie aleasă manual, independent, și poate fi bună pentru unele dimensiuni, dar rău pentru altele Adadelta [ ] este o modificare destul de simplă, dar eficientă a algoritmului Adagrad, al cărei scop principal este de a încerca să corecteze aceste două neajunsuri Există două idei principale pentru aceasta Prima idee este destul de simplă: pentru a nu acumula suma pătratelor gradienților de-a lungul întregului istoric al antrenamentului, să le calculăm pe o anumită fereastră, sau chiar mai bine pe întreaga istorie, dar cu greutăți care descrește exponențial Deoarece nimeni nu ne va lăsa să stocăm întregul istoric al gradienților anteriori, cea mai simplă modalitate de a implementa acest lucru este prin metoda deja cunoscută - prin introducerea parametrului de inerție Acum avem un meta-parametru pentru fiecare parametru optimizat, iar dacă notăm acest meta-parametru cu p, atunci modificarea matricei G poate fi scrisă după cum urmează: G-pa-pGt-igi + ( -p)gpi- Ca și în metoda momentelor, p trebuie, desigur, să fie mai mic decât Orice altceva se întâmplă exact la fel ca în Adagrad: acea y \u d - - - - / G y Gț \ + b Opțiuni adaptive de coborâre în gradient Acum G este o medie exponențială a pătratelor gradienților, ceea ce înseamnă că la fiecare pas luăm doar o parte din "istoria schimbărilor" în G, iar ponderile vechilor valori ale gradienților scad rapid (exponențial!) Deci, media exponențială, spre deosebire de sumă, va scădea numai atunci când gradienții devin descrescători Și exact asta ne-am dorit - reducerea ratei de învățare în momentul în care schimbarea funcției obiectiv încetinește, pentru o reglare mai fină în jurul minimului local A doua modificare adusă Adadeltei este o idee mai complexă, legată din nou de matricea hessiană Cert este că acest algoritm corectează scalele nepotrivite, "unitățile" de parametri și actualizările acestora în metoda de coborâre a gradientului și celelalte modificări ale acesteia Pentru o înțelegere intuitivă, această analogie fizică simplă funcționează cu adevărat aici: să ne imaginăm că greutățile sunt măsurate în secunde Se pare că în metodele anterioare, "unitățile de măsură" nu se potriveau fără speranță: • în coborârea obișnuită a gradientului sau metoda momentelor, s-a dovedit că "unitățile" de actualizare a parametrilor АѲ sunt unitățile gradientului, adică în unități, dacă greutățile au fost măsurate în secunde și funcția obiectiv era în metri, atunci gradientul ar avea dimensiunea "metru pe secundă" și scăderea metrilor pe secundă din secunde este destul de ciudată; • în timp ce în Adagrad s-a dovedit că valorile actualizărilor АѲ depind de rapoartele gradienților, adică valoarea actualizărilor s-a dovedit a fi complet adimensională "Unitățile de măsură" corecte au fost obținute numai în metodele de ordinul doi: în metoda lui Newton de ordinul doi, actualizarea parametrilor АѲ a fost proporțională, adică dimensiunea a fost după cum urmează: df AѲ os os os dimensiunea Ѳ Eh? În exemplul de mai sus, rezultatul ar fi metri pe secundă împărțiți la metri pe secundă pătrat (unități de accelerație), deci rezultatul este din nou secunde Pentru a alinia scalele acestor valori, este suficient să înmulțiți actualizarea de la Adagrad cu un alt factor nou: o altă medie exponențială, dar acum din pătratele actualizărilor parametrilor, și nu din gradient Deoarece nu cunoaștem media reală a pătratelor actualizărilor, pentru a o afla, trebuie doar să executăm mai întâi pasul curent al algoritmului - este aproximat prin pașii anteriori: E [l ] \u d [D * F t + ( - P ^ Ѳ , unde uț - 'Jtv- la Gț \ + e capitolul Pentru a completa imaginea, să scriem versiunea completă a Adadelta în pseudocod: g cached = Imb * g cached + ( - Imb) * dx** u cached = Imb * u cached + ( - Imb) * u** u = -np sqrt(u cached) * grad / (np sqrt(g cached) ) + eps) theta += u Următoarea opțiune, foarte asemănătoare cu cele anterioare, este algoritmul RMSprop; RMS aici înseamnă pătrate medii, abatere standard (ce este aici, vom vedea literalmente în paragraful următor) RMSprop și Adadelta sunt de fapt frați gemeni, deși au fost inventați aproape simultan și independent de oameni diferiți RMSProp, însă, nu a fost niciodată publicat, toate referirile la el duc cumva la celebrul curs al lui Geoffrey Hinton despre rețelele neuronale [ ], iar articolul despre Adadelta [ ] a fost publicat în același an cu cursul lui Hinton Această coincidență nu este surprinzătoare, deoarece ambele metode se bazează pe binecunoscuta idee clasică de aplicare a inerției, doar că de această dată RMSprop o folosește pentru a optimiza metaparametrul ratei de învățare Principala diferență dintre RMSprop și Adadelta este că RMSprop nu face o a doua corecție cu schimbarea unităților și păstrarea unui istoric al actualizărilor în sine, ci pur și simplu folosește media rădăcină a pătratelor (aici este, RMS) a gradienților: Ut = ~VG^+l' t~ ' Valoarea lui e este de obicei luată egală cu , , ar/ = , Și un alt algoritm de optimizare adaptivă, care este, de asemenea, adesea folosit în formarea rețelelor neuronale recent, este Adam [ ] Ca și cele două metode anterioare, este o modificare a lui Adagrad, dar utilizează versiuni netezite ale gradienților medii și rms: mt \u d + ( - vt \u d / m + ( - /? ) ^ , W \u d L - W y/v + e În pseudocod, acest lucru este, de asemenea, ușor de reflectat: m = betal*m + (l-betal)*dx v = beta *v + (l-beta )*(dx** ) u = - rata învățare * m / (np sqrt(v) + eps) theta += u Articolul original [ ] recomandă /?i = , , / = , , e = IO- În practică, efectul unui algoritm de optimizare modern bun este foarte ușor de simțit; toți algoritmii buni de optimizare, desigur, ajung aproape instantaneu în bibliotecile de antrenament De exemplu, în TensorFlow, acest lucru este la fel de simplu ca înlocuirea tf train GradientDescentOptimizer cu procedura tf train AdamOptimizer: train op = tf train AdamOptimizer() minimize(pierdere) Opțiuni adaptive de coborâre în gradient Orez Comparația dintre Coborârea Gradientului Stochastic și Adam Și rezultatul nu vă va face să așteptați: grafice similare cu Fig și , pentru algoritmul Adam sunt prezentate în fig Evident, Adam converge acolo unde este nevoie mult mai repede (deși cu mai multe variații) Ce sa aleg? Cum să decideți care dintre multele metode de optimizare existente să utilizați, mai ales având în vedere că nu necesită nicio muncă suplimentară din partea dvs (în vremea noastră este vorba de a trece unul sau altul parametru către optimizator)? Aceasta este o întrebare complexă și, în realitatea unei anumite probleme, cel mai bine ar fi să încercați mai multe simultan și să vedeți care dintre ele converg, care dau cea mai bună eroare etc Dar unele sfaturi generale pot fi date (vezi și [ , ]) Dacă datele tale sunt suficient de rare, atunci ar trebui să te uiți la algoritmi adaptivi RMSprop și Adadelta nu sunt foarte diferite, iar Adam este o extensie directă a RMSprop, iar Adam ar fi probabil cea mai bună alegere în medie în acest moment Cu toate acestea, în practica noastră, au existat sarcini asupra cărora Adam a divergit și, să zicem, Adadelta a dat rezultate normale, așa că dacă dintr-o dată Adam nu funcționează, nu disperați înainte de timp Unii dezvoltatori preferă să utilizeze coborârea gradientului stocastic cu rate de învățare cronometrate; aceasta, desigur, în majoritatea covârșitoare a cazurilor va duce și la o soluție, deși mai lent Un sfat practic important este că, odată cu coborârea în gradient, trebuie să monitorizați eroarea de pe setul de validare și să opriți procesul în momentul în care eroarea începe să crească În multe cazuri, coborârea gradientului poate duce la supraadaptare, căzând prea adânc în minimul funcției de eroare, ceea ce nu se va generaliza bine la datele noi De fapt, algoritmii de coborâre a gradientului nu au de unde să știe cât de bine se generalizează ceea ce fac, doar optimizează eroarea pe setul de antrenament Prin urmare, noi înșine trebuie să monitorizăm calitatea generalizării, care în cel mai simplu caz corespunde unei erori pe setul de validare capitolul Funcția de pierdere , , - Modelul inițial Hawieg - BN , t \ V \ Adam \ N Adam + BN + Xavier i o Precizie , , , , , , , , Modelul initial Xavier BN Adam Adam + BN + Xavier O S S Orez Comparația diferitelor metode de îmbunătățire a antrenamentului în rețelele neuronale Și aici mai apare o remarcă, care la început poate părea filozofică: se dovedește că am folosit setul de validare pentru a ne optimiza modelul, iar acest set este "murdar", nu mai poate fi considerat validare! Acest lucru pare ciudat: ei bine, se dovedește că am "corupt" o mare parte de date doar pentru a alege pasul în care să ne oprim? Să-l adăugăm apoi la setul de antrenament și, în același timp, să ne antrenăm mai departe Cu toate acestea, această utilizare a unui set de validare poate avea sens: este adesea folosită nu numai pentru a selecta pasul de oprire, ci și pentru a optimiza parametrii algoritmului de învățare și hiperparametrii modelului Prin urmare, în sistemele reale, datele sunt adesea împărțite nu în două părți, ci în trei: • setul de antrenament este folosit ca înainte pentru antrenamentul modelului; • setul de validare este utilizat pentru ajustarea hiperparametrilor, oprirea în timp a procesului de învățare etc ; • iar al treilea, setul de testare (setul de producție) este deja utilizat pentru evaluarea finală a calității Această schemă s-a dovedit în practică și, de asemenea, vă recomandăm să o utilizați; cu toate acestea, în exemplele din această carte, cel mai probabil ne vom limita doar la seturile de antrenament și de testare, deoarece nu vom selecta în mod specific hiperparametrii Și vom încheia acest capitol cu o comparație generală, arătând foarte "progresul invizibil" care se datorează în mare parte căruia acum suntem capabili să antrenăm rețele neuronale uriașe și complexe Pe fig Figura prezintă grafice ale funcției de eroare și acuratețea clasificării pe MNIST pentru toate metodele pe care le-am analizat în acest capitol (din nou, media peste rulări, dar de data aceasta fără variații pentru a nu aglomera diagrama) În plus, o altă curbă, cea mai importantă, este prezentată aici Opțiuni adaptive de coborâre în gradient (solid în Fig ), corespunzător unui model similar, căruia i se aplică toate aceste inovații: atât inițializarea Xavier, cât și normalizarea mini-loturi, cât și Adam ca algoritm de optimizare După cum puteți vedea, inovațiile nu se absorb reciproc: deși tranziția de la coborârea gradientului stocastic la Adam se dovedește a fi cea mai importantă, curba solidă merge în continuare cu mult peste graficul acestuia din urmă Desigur, pentru MNIST toate acestea nu sunt atât de importante, iar diferența nu este atât de mare, dar este vizibilă chiar și aici - și pentru seturi mari de date, adesea se dovedește a fi diferența dintre "ne putem antrena" și "nu putem " Acum că ne-am înarmat cu cele mai moderne metode de predare, putem apela și la arhitectură În capitolul următor, ne așteaptă una dintre principalele și cele mai populare arhitecturi "non-standard": rețelele neuronale convoluționale capitolul Rețele neuronale convoluționale și codificatoare automate, sau nu vă credeți ochilor TL;DR Acest capitol prezintă arhitecturile esențiale ale rețelelor neuronale convoluționale și ale autoencoderilor În el noi: • să începem, ca de obicei, cu biologia - cu cortexul vizual al creierului; • să aruncăm o privire mai atentă asupra modului în care funcționează rețelele convoluționale; • oferi o privire de ansamblu asupra arhitecturilor convoluționale moderne; • să trecem la rețele nesupravegheate - auto-encodere; • după trecerea în revistă teoretică, să încheiem capitolul cu o comparație practică a diferitelor tipuri de autoencodere (inclusiv convoluționale) pe setul de date MNIST Cortex vizual Cortex vizual Sistemul vizual al creierului are organizarea, profilul computațional și arhitectura pe care le are pentru a facilita înflorirea organismului la cele patru F: hrănire, fuga, luptă și reproducere PS Churchland, VS Ramachandran, TJ Sejnowski O critică a vederii pure [ ] Rețelele neuronale convoluționale (CNN) sunt o clasă foarte largă de arhitecturi a căror idee principală este de a reutiliza aceleași părți ale unei rețele neuronale pentru a lucra cu diferite zone mici, locale de intrări La fel ca multe alte arhitecturi neuronale, rețelele convoluționale sunt cunoscute de mult timp, iar astăzi au găsit deja o mare varietate de aplicații, dar principala aplicație pentru care oamenii au venit cândva cu rețele convoluționale rămâne procesarea imaginilor Și aceasta nu este o coincidență: ideea rețelelor convoluționale este în mare măsură motivată de cercetările asupra cortexului vizual al creierului Așa că în acest capitol facem din nou un pas înapoi și începem cu biologia Desigur, studiul mecanismelor vederii este un subiect foarte amplu, pe care îl putem atinge doar pe scurt; ca cărți destul de populare și interesante, vă recomandăm două disponibile gratuit [ , ], dintre care una este o expunere populară a studiilor clasice pe această temă a lui David Hubel însuși [ , , ] Oamenii s-au gândit de mult la cum vedem exact lumea din jurul nostru, cum funcționează viziunea Legătura ochilor cu viziunea a fost, scuzați jocul de cuvinte, evidentă chiar și pentru cei din vechime Ochiul ca dispozitiv optic a fost studiat de Leonardo da Vinci, Johannes Kepler și mulți alți mari fizicieni, care au remarcat proprietățile sale optice remarcabile Cu toate acestea, opiniile au variat Hermann Helmholtz a scris: "Ce optician rău, Domnul Dumnezeu! M-aș considera îndreptățit să mă exprim în cei mai tăiosi termeni despre neglijența muncii opticianului și să-i returnez dispozitivul cu un protest dacă acesta David Hunter Hubel ( - ) a fost un neurofiziolog canadian care a câștigat în Premiul Nobel pentru Fiziologie sau Medicină Principala lucrare a vieții sale științifice a fost o colaborare care a durat mai bine de de ani cu Thorsten Wiesel (Thorsten Nils Wiesel) [ ], timp în care Hubel și Wiesel au aflat multe despre structura și funcțiile cortexului vizual al creierului Efectuând experimente pe pisici și maimuțe, ei au fost primii care au aplicat o nouă tehnologie de microelectrozi la studiile cortexului vizual, care permite înregistrarea excitației neuronilor individuali Cu ajutorul unor astfel de electrozi, ei au studiat modul în care apare vederea binoculară și, cel mai important, au descoperit la ce reacționează neuronii individuali, cum unii dintre ei servesc ca detectoare de limită, alții reacționează la forma segmentelor liniare etc Pe scurt, Hubel și Wiesel au descoperit multe din ceea ce vorbim în această secțiune În general, scopul organelor corpului uman nu a fost deloc ușor de înțeles; larg cunoscută, de exemplu, este opinia lui Aristotel, care considera creierul un fel de radiator care răcește sângele Dar este foarte ușor de ghicit despre numirea ochilor pentru oamenii care au auzit despre povestea tristă a regelui Oedip capitolul a decis să-mi vândă un instrument cu asemenea deficiențe precum ochiul uman Dar totuși, de fapt, capacitatea ochiului de a se adapta, adică de a schimba distanța focală, și adaptarea, adică abilitatea de a vedea bine în diferite condiții de iluminare, sunt într-adevăr uimitor de bune Există un citat celebru din Despre originea speciilor a lui Darwin, care uneori este citat după cum urmează: "Poate părea cu totul absurd, sincer, să presupunem că ochiul cu toate invențiile sale inimitabile ar fi putut fi format prin selecție naturală " În mod curios, acest citat este uneori luat în serios de către creaționiști ca dovadă că Darwin "însuși a înțeles" limitările teoriei evoluției Cu toate acestea, citatul literalmente continuă imediat așa: " Motivul îmi spune: dacă este posibil să arătăm existența a numeroase gradații de la un ochi simplu și imperfect la un ochi complex și perfect, iar fiecare pas este util proprietarului său , și acest lucru este fără îndoială; dacă, mai departe, ochiul a variat vreodată și variațiile au fost moștenite, ceea ce este și cert; dacă, în cele din urmă, astfel de variații s-ar putea dovedi utile unui animal în condițiile schimbărilor sale de viață - atunci dificultatea care apare atunci când ne gândim la formarea unui ochi complex și perfect prin selecție naturală, deși de nedepășit imaginației noastre, nu poate fi recunoscută ca infirmând întreaga teorie" Într-adevăr, studii recente arată că ochi compuși capabili să distingă formele s-au format la diferite animale în procesul de evoluție destul de independent de până la cincizeci, sau chiar de o sută de ori; iar modelul binecunoscut al lui Nilsson și Pelger [ ] a arătat că evoluția unui ochi cu drepturi depline din primele celule care captează lumina s-ar putea produce foarte rapid, în termen de literalmente câteva mii de generații sau câteva sute de mii de ani Dar, desigur, nu ne interesează ochiul din această carte, ci ce se întâmplă apoi cu imaginea citită de pe retină Nervul optic - un mănunchi gros de axoni ai celulelor ganglionare, prin care informația din retină ajunge la creier - a fost remarcat de anatomiștii medievali, iar importanța sa pentru vedere era evidentă Nervul optic intră în talamus, partea a creierului care procesează informațiile din organele de simț, unde procesarea primară are loc în așa-numitul nucleu geniculat lateral (LGN), iar apoi informațiile vizuale din LGN intră în cortexul vizual propriu-zis Toate acestea erau cunoscute de oameni încă din secolul al XIX-lea, dar cercetările reale privind cortexul vizual și percepția imaginii nu puteau începe înainte ca oamenii să poată privi la nivelul neuronilor individuali, adică în prima jumătate a secolului al XX-lea S-ar putea scrie o carte separată despre cercetarea asupra vederii umane și a procesării semnalului vizual (și, desigur, au fost scrise multe astfel de cărți) Există multe exemple foarte interesante de iluzii vizuale și boli ciudate , dar scopul nostru acum este mult mai modest: vom încerca să notăm câteva trăsături importante în structura cortexului vizual, care pot fi găsite câteva De exemplu, creierul nostru are aproape sigur zone speciale și modalități speciale de procesare a fețelor umane, separate de recunoașterea tuturor celorlalte obiecte Cum au ajuns oamenii de știință la această concluzie? Cortex vizual corespondențe condiționate în arhitectura rețelelor neuronale artificiale moderne Subliniem doar în cazul în care vorbim exclusiv despre "a fi inspirat de idei": munca reală a creierului este încă prea complexă și de neînțeles pentru noi, iar modelarea cortexului vizual sau chiar a părților sale individuale este încă dincolo de puterea umană Cortexul vizual, destul de ciudat, este situat în spate, în lobul occipital al creierului Este împărțit în mai multe părți, care sunt de obicei numite în mod clar zona vizuală V (zona vizuală unu), care se mai numește și cortexul striat sau cortexul vizual primar, zona vizuală V (zona vizuală a doua), zona vizuală V etc , până la V și V Zonele diferă unele de altele în fiziologie, arhitectură și pur și simplu o poziție separată în cortex, iar cercetătorii nu au nicio îndoială că diferă și în funcțiile lor Deși de fapt specializarea funcțională a zonelor nu este încă complet clară, este clar că funcțiile zonelor cortexului vizual devin treptat din ce în ce mai generale Conform ideilor actuale: • în zona V se disting semne locale ale unor zone mici ale imaginii citite din retină; acesta este cel mai interesant lucru pentru noi acum și vom vorbi despre el în detaliu mai jos; • V continuă să evidențieze caracteristicile locale, generalizându-le ușor și adăugând viziune binoculară (adică efect stereo de la doi ochi); • în zona VZ se recunosc culoarea și texturile obiectelor, apar primele rezultate ale segmentării și grupării acestora; • zona V începe deja să recunoască forme geometrice și contururi ale obiectelor care sunt încă simple; în plus, aici modulația prin atenția noastră este cea mai puternică', activarea neuronilor în V nu este uniformă pe întregul câmp vizual, dar depinde puternic de ceea ce acordăm atenție conștient sau inconștient; • zona V este angajată în principal în recunoașterea mișcărilor, încercând să înțeleagă unde și cu ce viteză se mișcă chiar obiectele în zona de vizibilitate, ale căror contururi s-au remarcat în zona V ; • Zona V generalizează datele despre întreaga imagine, reacționează la modificări pe întregul câmp vizual (stimulare cu câmp larg) și la schimbările din imagine datorită faptului că persoana însuși se mișcă; • uneori disting și zona V , unde sunt recunoscute obiecte complexe, în special fețe umane Această specializare funcțională este prima observație despre cortexul vizual care se potrivește bine cu ceea ce vedem de obicei în rețelele neuronale profunde: sunt necesare niveluri mai înalte pentru a evidenția mai multe aspecte generale Este foarte simplu: cu anumite leziuni ale creierului (de exemplu, accidente vasculare cerebrale), se dezvoltă așa-numita agnozie de obiect, atunci când o persoană nu poate recunoaște și identifica corect obiectele dar cu recunoașterea feței, este în regulă! Și recunoașterea feței este dezactivată cu agnozia facială, care, la rândul său, nu interferează deloc cu recunoașterea altor obiecte capitolul caracteristici corespunzătoare proprietăților abstracte ale intrării, iar la niveluri inferioare caracteristicile sunt mai specifice În rețelele convoluționale, desigur, efectul va fi același Dar există și alte proprietăți interesante ale arhitecturii cortexului vizual care se reflectă în învățarea automată Pe lângă zonele VI-V , se disting și alte zone, iar printre cele enumerate ierarhia nu este atât de strictă: există o mulțime de conexiuni directe, când, de exemplu, neuronii din zona V sunt alimentați nu numai în zona V , dar și direct către zona V ; acest lucru se va reflecta și în arhitecturile convoluționale În plus, spre deosebire de majoritatea arhitecturilor de rețele neuronale artificiale, există întotdeauna un feedback foarte puternic între neuronii din creier de la nivelurile superioare la cele inferioare De exemplu, cercetările actuale sugerează că atenția, care își are originea în zona V , apoi se mută înapoi la V și VI (există și o modulare puternică bazată pe atenție acolo!) [ ] Rețelele neuronale artificiale introduc, de asemenea, mecanisme de atenție similare care ajută la alegerea ce intrări și ieșiri intermediare ale rețelei trebuie să fie luate în considerare acum cel mai mult - vom vorbi despre ele în Secțiunea Dar totuși, este feedback că noi, specialiștii în învățarea automată, nu suntem încă foarte buni la "gătit"; a veni cu un model matematic pentru modul în care creierul îl controlează este una dintre cele mai importante probleme deschise din neuroștiință Apropo, conform conceptelor moderne, ieșirile neuronilor din zona VI și V sunt procesate de două căi paralele simultan: calea ventrală de la V merge la V răspunde la întrebarea "Ce?" (numit uneori What Pathway), responsabil pentru recunoașterea formelor și a obiectelor, iar traseul dorsal (Where Pathway) răspunde la întrebarea "Unde?" cum se ajunge la un obiect în câmpul vizual) [ ] Nu putem oferi o specializare atât de detaliată rețelelor noastre artificiale, dar această idee, în general vorbind, este, de asemenea, utilizată în mod regulat: de multe ori are sens să procesăm aceeași intrare în mai multe moduri diferite și numai apoi să combinăm rezultatele, de exemplu, prin însumare sau concatenare Rețelele convoluționale fac adesea acest lucru atunci când procesează intrarea cu mai multe dimensiuni de filtru simultan; Filtrele vor fi discutate în secțiunea următoare Dar asta nu este tot Dintre întregul cortex vizual, zona V , cortexul vizual primar, este cea mai bine studiată: este cel mai aproape de intrările propriu-zise, este aranjată destul de simplu și este mai ușor de înțeles pentru ce sunt "responsabili" neuronii individuali și modul în care interacționează unul cu celălalt [ ]; cu zona V au fost asociate cele mai puternice rezultate ale lui Hubel și Wiesel S-a dovedit că zona V în sine constă din șase niveluri de neuroni: semnalele de intrare vin de la corpul geniculat lateral la al patrulea nivel, semnalele suplimentare ies de la nivelurile și și invers Din păcate, când Calea nu a fost încă găsită în creier Cortex vizual conexiune - din a șasea Neuronii din zona V nu sunt localizați aleatoriu: zona V conține o "hartă" completă a câmpurilor vizuale ale ambilor ochi, adică zonele apropiate ale retinei sunt procesate de neuronii apropiați din VI Este curios că, cu această "cartare", structura locală este transferată foarte precis, dar la nivel global există distorsiuni serioase: în primul rând, partea centrală a câmpului vizual este mult mărită (jumătate din neuroni sunt responsabili pentru % a câmpului vizual), și în al doilea rând, există distorsiuni geometrice similare cu utilizarea coordonatelor polare: cercurile concentrice și liniile radiale din imagine sunt convertite în linii verticale și orizontale în VI Acest lucru ne permite să menținem invarianța imaginii atunci când ne schimbăm poziția și unghiul de vedere Nu vom folosi astfel de transformări, dar să ne amintim că fiecare neuron din VI operează pe o zonă foarte mică a imaginii (se numește câmp receptiv), iar între ele se mențin relații spațiale, similare cu originalul imagine Este interesant de înțeles la ce răspund de fapt neuronii din VI Pe lângă locația reflectată în "hartă", diferiți neuroni din VI recunosc: • orientarea, adică neuronul răspunde, de exemplu, la faptul că iluminarea de-a lungul diagonalei imaginii este mare, iar în celelalte două colțuri scăzute; sau faptul că iluminarea părții inferioare a imaginii este mai mare decât cea superioară; astfel, neuronii recunosc granițele imaginilor (detecția marginilor); • frecvența spațială, adică cât de des se schimbă iluminarea în câmpul receptiv al neuronului; • directie', spre deosebire de majoritatea rețelelor pe care le vom analiza mai jos, o persoană este interesată nu numai și nu atât de o imagine statică, cât și de mișcările care apar în ea; neuronii sunt capabili să "amintească" și să compare intrările anterioare cu cele ulterioare, recunoscând astfel direcția nu numai în spațiu, ci și în timp; frecvența temporală este recunoscută în mod similar, • diferența dintre ochi', în VI fiecare neuron are două câmpuri receptive, pentru fiecare ochi, și în timp ce majoritatea neuronilor sunt în primul rând "dedicați" unui anumit ochi (adică nu răspund la stimuli de la celălalt), unii recunosc doar diferențele dintre ceea ce văd ochii stângi și cei drepti; • culoare, în raport cu care neuronii recunosc de obicei una dintre cele trei direcții principale: roșu-verde, albastru-galben și negru-alb Descrierea matematică a modului în care neuronii din cortexul vizual sunt activați în funcție de orientare [ , ] s-a dovedit a fi strâns legată de așa-numitele filtre Gabor [ ], un tip de transformare matematică care este foarte eficientă pentru detectarea marginilor obiecte din imagini Iar faimosul set de caracteristici pentru imaginile SIFT (transformarea caracteristică invariabilă la scară), dezvoltat de David Low la sfârșitul anilor [ , ], corespunde în mare măsură modului în care capitolul neuronii din cortexul vizual sunt activați Astăzi, dezvoltarea rețelelor profunde a dus la faptul că acum obținem aproximativ aceleași caracteristici (doar și mai bine funcționale) la nivelurile inferioare ale rețelelor convoluționale - vom vedea exemple ale acestora de mai multe ori în acest capitol Povestea despre zona V ne duce la ultimul punct: după cum puteți vedea, procesarea imaginilor din creier este aranjată ca o rețea neuronală foarte profundă În special, deja în primele lucrări ale lui Hubel și Wiesel, celulele cortexului vizual (și anume, zona VI) au fost împărțite în simple și complexe Celulele simple reacţionează doar la zone şi benzi de lumină, marginile stimulilor trecând într-un anumit loc la un anumit unghi Și celulele complexe pot, de exemplu, să răspundă la orientare, indiferent de poziția specifică a semnalului Acest lucru se realizează prin faptul că celulele complexe aparțin următorului nivel de procesare, primind ca intrare rezultatul activării celulelor simple; prin urmare, câmpul lor receptiv este de obicei puțin mai mare, iar caracteristicile pe care le detectează sunt invariante cu locația semnalului În special, celulele care răspund la mișcarea semnalului sunt, de asemenea, întotdeauna complexe conform acestei clasificări Și acesta este doar începutul: numai în zona V se disting șase niveluri și, de fapt, semnalul trece prin mai multe zone deodată în direcția mișcării, pornind de la corpul geniculat lateral (care, de altfel, are și el șase niveluri) și se termină cu zonele de nivel înalt V și V Acest lucru se reflectă și în rețelele neuronale artificiale: rețelele convoluționale pentru procesarea imaginilor sunt cele mai profunde rețele existente Cu ajutorul ideilor pe care le vom prezenta în acest capitol, este posibil să antrenezi o rețea de câteva zeci și chiar sute de nivele! Dar destulă biologie Pornind de la secțiunea următoare, trecem la prezentarea propriu-zisă a ideilor și matematicii rețelelor convoluționale Vom vedea cum, cu simpla idee de a reutiliza aceleași greutăți pentru diferite zone ale imaginii de intrare, putem reduce drastic numărul de parametri din rețea fără a pierde nimic din expresivitate Rețelele convoluționale sunt una dintre cele mai populare arhitecturi ale rețelelor neuronale moderne, iar acest capitol este unul dintre cele centrale din carte Convoluții și rețele convoluționale "Acum, dacă slăbiți puțin șireturile care îmi leagă scutul superior, voi vedea dacă mă pot rostogoli într-o minge " Acest lucru poate fi de ajutor R Kipling Cum au apărut armadillos Deci, în secțiunea anterioară, am discutat despre arhitectura cortexului vizual După cum am aflat, cortexul vizual, sau mai degrabă, studiile lui Hubel și Wiesel la începutul anilor și [ , ] a fost cel care a motivat multe idei care sunt utilizate în prezent în arhitecturile profunde Convoluții și rețele convoluționale Și aici apare din nou unul dintre laitmotivele cărții noastre, cel puțin excursiile sale istorice: ideea rețelelor convoluționale a apărut de standardele învățării automate cu mult timp în urmă Se poate spune că prima rețea convoluțională reală care a împrumutat ideile întruchipate de natură în cortexul vizual pentru informatică a fost Neocognitronul lui Kunihiko Fukushima, care a apărut în - [ , ] Cu toate acestea, Fukushima nu a folosit deloc coborârea în gradient sau învățarea supravegheată, iar munca sa a fost destul de bine uitată Din nou, rețelele convoluționale într-o formă complet modernă au apărut doar în lucrările grupului lui Jan LeCun la sfârșitul anilor [ , , ], iar de atunci și până în prezent au fost folosite cu destul de mult succes pentru recunoașterea imaginilor și multe alte probleme (vezi, de exemplu, recenzii recente [ , ]) Dar ce este, de fapt, convoluția în acest caz și ce legătură are ea cu rețelele neuronale? Pentru a răspunde la această întrebare, să facem mai întâi un pas înapoi Piatra de temelie a tuturor rețelelor neuronale sunt transformările afine În fiecare strat al unei rețele complet conectate, se repetă aceeași operație: un vector este introdus în intrare, care este înmulțit cu matricea de greutate, iar vectorul membrilor liberi este adăugat la rezultat; numai după aceea o funcție de activare neliniară este aplicată rezultatului Și în toate rețelele pe care le-am construit până acum, această abordare a fost folosită în mod constant, indiferent de structura sau originea datelor Fie că este vorba de imagini, text sau muzică, aplicăm transformarea afină din nou și din nou în fiecare strat al rețelei noastre, după ce mai întâi am redus datele la formă vectorială Cu toate acestea, multe tipuri de date au propria lor structură internă, care ne este perfect cunoscută în prealabil Exemplul principal al unei astfel de structuri din acest capitol este o imagine, care este de obicei reprezentată ca o matrice de vectori de numere: dacă imaginea este alb-negru, atunci este pur și simplu o matrice de intensități, iar dacă este color, atunci o serie de vectori de trei numere care denotă intensitățile celor trei culori primare (roșu, verde și negru în RGB standard, albastru, verde și roșu în trei tipuri de conuri în ochiul uman etc ) Dacă generalizăm o astfel de structură internă la generalitatea maximă care ne este încă utilă, descrierea va fi următoarea: ) datele inițiale sunt o matrice multidimensională ("tensor"); ) printre dimensiunile acestui tablou se numără una sau mai multe axe, ordinea de-a lungul cărora joacă un rol important; de exemplu, ar putea fi aranjarea pixelilor dintr-o imagine, cronologia unei piese muzicale, ordinea cuvintelor sau a caracterelor din text; ) alte axe denotă "canale" care descriu proprietățile fiecărui element de-a lungul subsetului precedent de axe; de exemplu, trei componente pentru imagini, două componente (dreapta și stânga) pentru sunet stereo etc Am menționat deja acest model în secțiunea , deoarece în Neocognitron au apărut pentru prima dată perceptronii cu o funcție de activare similară cu ReLU capitolul Când antrenăm rețele neuronale complet conectate, aceste cunoștințe suplimentare despre structura sarcinilor nu sunt folosite în niciun fel Amintiți-vă de exemplul rețelei de recunoaștere a cifrelor scrise de mână pe care am construit-o în Secțiunea : în care pur și simplu am transformat o imagine de x pixeli într-un vector de lungime și am alimentat-o ca intrare S-a dovedit că transformările noastre afine nu au ținut cont de structura imaginii, de topologia datelor! Dar la urma urmei, nu este doar prezent, ci joacă un rol decisiv: desigur, poziția relativă a pixelilor din imagine este importantă pentru recunoașterea numerelor Se pare că rețeaua a trebuit să învețe, pe baza intensităților a pixelilor individuali, nu numai cărei forme corespunde cărei cifre, ci în același timp și în general conceptul de formă, faptul că unele componente ale vectorului de intrare sunt pixeli vecini, ceea ce înseamnă că sunt foarte corelați etc prezentăm o sarcină dificilă rețelei noastre nefericite complet conectate Dacă nu ne prefacem că nu știm nimic despre structura intrărilor (separarea canalelor de culoare într-o imagine, ordinea nucleotidelor în ADN etc ), dar începem să o folosim direct, acest lucru ne poate ajuta semnificativ în antrenarea rețelelor neuronale În această secțiune, vom lua în considerare această abordare folosind exemplul de straturi convoluționale pentru problemele de vedere pe computer Vom discuta despre o parte foarte importantă a rețelelor neuronale profunde moderne și vom vedea din nou cum un concept foarte simplu duce la rezultate fantastice Ideea principală a unei rețele convoluționale este că procesarea unei secțiuni a unei imagini trebuie să aibă loc foarte des, indiferent de locația specifică a acestei secțiuni Aproximativ, dacă vrei să-l recunoști pe prietenul tău Vasya în fotografie, nu contează deloc dacă urechea lui Vasya este la sau de pixeli distanță de marginea din stânga a fotografiei Vasya ar putea fi recunoscut și într-o fotografie puternic decupată, unde nu există nimic în afară de fața lui; este o sarcină locală care poate fi rezolvată prin mijloace locale Desigur, poziția relativă a obiectelor joacă un rol important, dar mai întâi ele trebuie oricum recunoscute, iar această recunoaștere este locală și indiferent de poziția specifică a zonei cu obiectul din interiorul tabloului mare Prin urmare, rețeaua convoluțională explică pur și simplu această ipoteză: să acoperim intrarea cu ferestre mici (să zicem x pixeli) și să extragem caracteristicile din fiecare astfel de fereastră cu o rețea neuronală mică Mai mult - și aici este considerentul cheie - vom selecta aceleași caracteristici în fiecare fereastră, adică va exista o singură rețea neuronală mică, va avea doar x = de intrări și din fiecare imagine se poate obține un o mulțime de intrări diferite Apoi rezultatele acestei rețele neuronale pot fi din nou reprezentate ca o "imagine", înlocuind ferestrele de x cu pixelii lor centrali, iar pe ea poate fi aplicat un al doilea strat convoluțional, cu o altă rețea neuronală mică și așa mai departe va vedea în curând că vor fi foarte puțini parametri liberi în fiecare strat convoluțional, mai ales în comparație cu omologii complet conectați Convoluții și rețele convoluționale Înainte de a trece direct la definițiile formale ale operației de convoluție, să înțelegem conceptul de canal într-o imagine De obicei, imaginile color alimentate la intrarea unei rețele neuronale sunt reprezentate ca mai multe matrice dreptunghiulare, fiecare dintre acestea setând nivelul unuia dintre canalele de culoare în fiecare pixel al imaginii O imagine de x pixeli este de fapt de numere, trei matrice de intensitate de x fiecare Dacă imaginea este alb-negru, ca, de exemplu, în MNIST, atunci va exista o singură astfel de matrice Și dacă aceasta nu este o imagine simplă, ci, să zicem, rezultatul spectrometriei de masă imagistice, atunci când există un spectru întreg în fiecare pixel, atunci pot exista o mulțime de matrice Dar, în orice caz, vom presupune că în fiecare pixel al imaginii de intrare există un tensor (de obicei unidimensional, adică un vector de numere), iar componentele sale se numesc canale (canale) Aceleași matrice vor fi obținute după stratul convoluțional: vor avea în continuare o structură spațială corespunzătoare imaginii originale (dar nu exact aceeași - vom vorbi despre asta în curând), dar acum pot fi mai multe canale Valorile fiecărei caracteristici pe care le-am extras din ferestrele din imaginea originală vor fi acum o întreagă matrice Fiecare astfel de matrice se numește o hartă de caracteristici În principiu, canalele imaginii originale pot fi numite și hărți de caracteristici; în mod similar, ne vom referi adesea la hărțile de caracteristici ale stratului următor ca canale Acum rămâne doar să definim formal ce este o convoluție și cum sunt aranjate straturile unei rețele convoluționale Convoluția este doar un tip special de transformare liniară a datelor de intrare Dacă x este o hartă de caracteristici în stratul numărul Z, atunci rezultatul unei convoluții bidimensionale cu un nucleu de dimensiune d + și o matrice de greutate W de dimensiune ( d + ) x ( d + ) pe următorul strat va fi după cum urmează: yli,j = wafixll+aj+b, -d ,l] ca intrare, ferestrele nu ar fi toate posibile, dar cu un interval de trei pixeli, așa cum se arată în fig Hașura arată care pixeli sunt centrele ferestrelor, iar în fig , iar două exemple de ferestre sunt evidențiate cu umbrire suplimentară Rețineți că parametrul strides determină pur și simplu cât de des aplicăm filtre pe fiecare dimensiune a tensorului de intrare și, în acest caz, are patru dimensiuni Prin urmare, de exemplu, prima componentă a pașilor corespunde unor exemple diferite din mini-lot și, dacă nu ar fi egală cu unul, am sări peste o parte din exemplele de intrare Pare ciudat în acest caz și nu are sens ca funcția tf nn conv d să specifice pași cu o primă componentă care nu este o singură (sau să omite unele dintre filtrele de culoare din a patra componentă), dar argumentul lui TensorFlow este mai mult general si poate fi aplicat oricui tensor, de unde si dimensiunile "extra" (vom vedea utilitatea lor putin mai tarziu, cand discutam despre operatia de subesantionare) În exemplul nostru, schimbând parametrul strides, vom obține pur și simplu câteva submatrici ale acelor matrici pe care le-am calculat mai sus De exemplu, pentru strides=[l, , , ] vom sări peste fiecare a doua dimensiune atât rândurile cât și coloanele; rezultatul plierii cu padding="VALID" va fi astfel: \ /' și cu padding="SAME" obțineți asta: \ / Deci, "modelul" nostru este stabilit Să scriem datele de intrare: x = ex argg([[ , , , , ], [ , , , , ], [ , , , , ], [ , , , , ], Convoluții și rețele convoluționale [ , , , , ]]) w = ex argg([[ , , ], [ , , ], [ , , ]]) Rămâne doar să declarați sesiunea și să calculați rezultatul: sess = tf Sessi onQ y vaHd, y same, y valid half, y same half = sess run( [x valid, x same, x valid half, x same half], feed dict={x inp: x, w inp: w} ) Să vedem ce avem; întrucât rezultatul va fi în continuare tensori cu patru dimensiuni și am dori să vedem matrici obișnuite, vom fixa unele dimensiuni (triviale) cu zerouri: prinț "padding=VALID:\n", y valid[ , ] prinț "padding=SAME:\n", y same[ , ] prinț "padding=VALID, stride :\n", y valid half[ , ] prinț "padding=SAME, pas :\n", y same half[ , ] Și acum rezultatul este destul de așteptat: padding=VALID: [[ ] [ ] [ ]] padding=ACEȘI: [[ h ] [ ] [ h ] [ ] [ ]] padding=VALID, pas : [[ ] [ ]] padding=SAME, pas [[ ] [ ] [ ]] Din punct de vedere istoric, primele idei similare cu circumvoluțiile moderne au apărut în modelul Neocognitron deja menționat și deja în forma lor practic modernă au fost aplicate la sfârșitul anilor ai secolului XX Această direcție a devenit cea principală pentru grupul Jan LeCun [ , ] Dar este curios că aproape simultan aproape aceleași modele au fost dezvoltate de un grup de cercetători japonezi sub capitolul conducerea lui Wei Zhang [ ]; munca lor a fost numită "rețea neuronală invariantă de schimbare" și a fost, de asemenea, aplicată în mod repetat recunoașterii modelelor [ ] Deci, am învățat cum să facem operația de convoluție După ea, așa cum am spus deja, se poate aplica una sau alta funcție neliniară h: pur și simplu va fi aplicată separat fiecărui element al tensorului rezultat Dar asta nu este tot În stratul convoluțional clasic, pe lângă convoluția liniară și neliniaritatea care o urmează, mai există o operație: subsampling (pooling; în rusă se mai numește uneori și operațiunea "subsampling", din termenul englez alternativ subsampling; cuvântul " pooling" se găsește și el, dar pre-scrisorii infirmi în cartea noastră, poate, sunt deja prea mulți) Sensul subeșantionării este simplu: rețelele convoluționale pornesc de obicei de la presupunerea că prezența sau absența unei caracteristici este mult mai importantă decât coordonatele sale exacte De exemplu, atunci când recunoaștem fețe cu o rețea convoluțională, este mult mai important pentru noi să înțelegem dacă există o față în fotografie și a cui, decât să aflăm de la ce pixel anume începe și se termină Prin urmare, își poate permite "generalizarea" trăsăturilor distinctive, pierzând o parte din informațiile despre locația lor, dar reducând dimensiunea De obicei, operația de luare a maximului (max-pooling) se aplică fiecărui grup local de neuroni ca operație de subeșantionare; această subeșantionare se întoarce din nou la lucrările lui Hubel și Wiesel și se pare că neuronii din cortexul vizual fac exact asta Alte operațiuni de subeșantionare sunt uneori întâlnite; rețelele convoluționale sunt cunoscute de foarte mult timp și este caracteristic că primele construcții ale grupului LeCun au folosit luând media [ , ] mai degrabă decât maximul pentru subeșantionare Studiile de comparație favorizează în general max-pooling [ , ] Și în [ ], o comparație detaliată a diferitelor operațiuni de subeșantionare a condus la faptul că, ca alternativă optimă, autorii au propus o variantă intermediară între maxim și medie: fără a intra în detalii, putem spune că au propus luarea maxim nu pe întreaga fereastră, ci pe o parte din subsetul său aleatoriu Cu toate acestea, este maximul care apare cel mai des în practică și dă rezultate bune pentru majoritatea problemelor practice, prin urmare, în continuare, atunci când vorbim pur și simplu despre "subsampling", ne vom referi exact la max-pooling și vom defini oficial subeșantionarea (în aceeași notație de mai sus) astfel: X\+^ = maX Z\+a I+b- M -d = F(x)) О F(x)t Q Intrare A (x = F(x)+x dx(k>) Aceasta înseamnă că chiar și un strat F saturat și complet antrenat, ale cărui derivate sunt aproape de zero, nu va interfera cu învățarea În Fig În [ ], se realizează o comparație detaliată a mai multor variante de blocuri reziduale Rezultatele s-au dovedit a fi curioase: blocurile reziduale, care ar trebui teoretic să fie mai expresive, în practică se dovedesc a fi mai rele decât cele mai simple opțiuni De exemplu, am arătat în fig , într-o versiune foarte simplă a blocului rezidual, în care = ( - , iar Xj = în caz contrar Cu toate acestea, într-o astfel de imagine "binară", punctele care au o pondere foarte mică, dar pozitivă, vor fi atrase la fel de puternic ca și cele mai importante și este puțin probabil să le putem distinge bine unele de altele Prin urmare, să impunem o constrângere suplimentară asupra valorilor neuronilor de intrare, să le normalizăm: X? = Atunci activarea maximă la ieșirea neuronului i-lea va fi atinsă la următorul punct : WXJ Хг normă(Mj)' Am prezentat câteva dintre cele de filtre ale autoencoderului rar în Fig Deși toate par destul de zgomotoase (la urma urmei, aceasta este cea mai simplă arhitectură posibilă), este clar că multe dintre ele conțin contururi clare de numere Pentru a implementa un autoencoder de dezgomot și a-l testa pe MNIST, este suficient să faceți modificări minime la codul deja scris Să începem prin a adăuga un alt stub pentru datele "corupte": noi sy i nput = tf placeholder(tf float , [batch size, ]) Desigur, acest stub trebuie să aibă aceeași dimensiune ca ae input, deoarece funcția de pierdere după comprimare și decomprimare a exemplelor va fi calculată Deși această problemă poate fi rezolvată foarte simplu folosind metoda multiplicatorului A Lagrange, o explicație a acestei metode depășește scopul acestei cărți și lăsăm cititorul familiarizat cu cursul de bază al analizei matematice pentru a obține singur răspunsul K capitolul bazat pe date brute, nu pe cele zgomotoase Stratul ascuns este acum redat și folosind noul stub: ascuns = tf nn sigmoid(tf matmul(noisy input, ae weights["encoder w"]) + ae weights["encoder b"]) Și când trebuie să rulăm date "curate" prin stratul ascuns, fără zgomot, pentru a testa autoencoderul rezultat, pur și simplu vom trece lotul original la noisyjlnput Ciclul principal de învățare se modifică ușor: pentru eu în xrange(actualizări): x batch, = mnist train next batch(batch size) noise mask = np random uniform( , , [batch size, ]) , pentru \z\ + b : propoziție actuală += s + "\n" dacă len(s) == sau s[-l] în semne end markers: current sentence = current sentence strip() dacă len(current sentence) > : sentences append(current sentence) current sentence = " Următorul pas este vectorizarea Să definim o procedură care transformă un set de propoziții în doi tensori: X conține vectori de caractere și y este rezultatul pe care trebuie să-l prezicem; este de fapt exact același tensor X, deplasat doar cu un vector la stânga: la momentul t, prezicem simbolul care va fi în locul t + def get matrices(propoziții): max sentence len = np max([ len(x) pentru x în propoziții ]) x = np zeros((len(sentences), max sentence len, len(chars)), dtype=np bool) y = np zeros((len(sentences), max sentence len, len(chars)), dtype=np bool) pentru i, propoziție în enumerate(propoziții): char seq = (START CHAR + propoziție + END CHAR) ljust( max sentence len+l, PADDING CHAR) pentru t în interval (max sentence len): X[i, t, :] = vectori car[car seq[t]] y[i, t, :] = char vectors[char seq[t+l]] returnează X,y Există două lucruri de remarcat în acest cod În primul rând, pentru a accelera și a economisi memoria, am adăugat parametrul dtype=np bool, transformând toate matricele în booleeni: acestea conțineau deja doar valorile și , astfel încât această salvare nu va strica nimic În al doilea rând, punem înainte fiecare propoziție cu START CHAR, se încheie cu END CHAR și apoi o completăm la max sentence len+l cu PADDING CHAR; în Python, acest lucru se poate face cu funcția standard Ijust Acum totul este gata pentru a construi modelul și a-l antrena Să începem cu cel mai simplu model: un nivel de celule LSTM, ale căror rezultate sunt trecute printr-un strat complet conectat, iar clasificarea are loc imediat Iată cum arată în Keras: din keras models import Sequential din keras layers import Dense, Dropout, LSTM, TimeDistributed model = Sequential() model add(LSTM(output dim= , activation='tanh', return sequences=True, input dim=num chars)) Exemplu: generarea textului caracter cu caracter model add(Droout( )) model add(TimeDistributed(Dense(output dim=num chars))) model adauga(Activare('softmax')) În acest scurt pasaj, două entități importante și noi pentru noi au apărut deodată Primul este stratul LSTM, pe care l-am importat din keras layers ca de obicei Să aruncăm o privire la argumentele lui: • parametrul output dim= înseamnă că stratul nostru este format din de celule LSTM; în consecință, dimensiunea ieșirii va fi egală cu ; • parametrul activation='tanh' spune că vom folosi tangenta hiperbolică tanh ca funcţii de activare în celulele LSTM (implicit ar fi sigmoidul logistic sg); nu susținem că tangenta hiperbolică este neapărat mai bună pentru această problemă, dar a fost necesar să se demonstreze acest parametru, deci de ce nu acum; • input dim=X shape[ ], ca și în alte straturi, indică faptul că sunt așteptate mini-loturi la intrare de la vectorii de lungime X shape[ ], adică (vezi mai sus) de lungime len(chars); rețineți că nu am setat dimensiunea mini-lotului, sau chiar lungimea propoziției de intrare, toate acestea pot rămâne variabile; • și în final, un parametru foarte interesant return sequences=True; faptul este că implicit stratul LSTM va urma secvența de intrare (în cazul nostru, după propoziție) de la început până la sfârșit, dând drept rezultat doar starea sa la sfârșitul întregii intrări, adică tensorul de dimensiune input dim x output dim; si cu return sequences=Acest strat va renunta la iesiri dupa fiecare exemplu; aceasta înseamnă că în cazul nostru, tensorul de ieșire va fi tridimensional, iar dimensiunea sa va coincide cu dimensiunea tensorului de intrare X A doua entitate nouă este stratul TimeDistributed, care servește drept "înveliș" pentru stratul Dense complet conectat, de la care ar trebui să fie deja obținute activări pentru fiecare dintre simboluri, adică fiecare dintre clasele din sarcina noastră de clasificare Scopul stratului TimeDistributed este de a oferi posibilitatea de a utiliza aceleași greutăți pe întreaga lungime a secvenței de intrare, adică de a avea ponderi comune într-un strat complet conectat Formal, aceasta înseamnă că stratul Dens (output dim=num chars) va primi fiecare dintre ieșirile rețelei LSTM ca intrare și va folosi aceleași greutăți pentru a transforma starea ascunsă a acestei rețele LSTM într-o literă prezisă Și o mică notă despre abandonul Renunțarea la rețelele recurente este o chestiune destul de delicată Până la lucrări foarte recente legate de abordarea bayesiană a inferenței în rețelele neuronale [ ], se credea că abandonul pe greutăți recurente nu era necesar, deoarece conexiunile pe termen lung erau rupte în acest fel: era greu de reținut Acest punct de vedere a fost confirmat de experimente detaliate, de exemplu, în Ref [ ] Prin urmare, în majoritatea modelelor clasice recurente, abandonul se face doar între straturi recurente, dar nu în interiorul acestora Vom vorbi în detaliu despre cele mai recente știri ale abandonului Bayesian în mod recurent Capitolul Orez Arhitectură de rețea neuronală pentru generarea de texte caracter cu caracter pe baza unui nivel de celule LSTM rețele din secțiunea ; acolo vom explica de ce credeam așa și ce s-a schimbat acum Dar în exemple, nu vom complica nimic acum (mai ales având în vedere că în bibliotecile standard de acum, la sfârșitul anului , "noul aspect" asupra abandonului nu se face încă într-o singură linie) și vom folosi doar " standard" abandon între niveluri Întregul model este ilustrat în fig : simbolurile primite la intrare sunt mai întâi convertite într-o reprezentare vectorială (one-fierbinte), apoi sunt introduse în celula LSTM la următorul pas de timp, apoi trec prin stratul de abandon și sunt introduse în stratul complet conectat , ale cărui rezultate deja prin softmax generează clasificarea reală a rezultatelor Și variabila țintă este următorul caracter din textul de intrare - acesta este în Fig se reflectă sub formă de linii punctate care conectează ieșirea și următoarea intrare Acum modelul compilat trebuie optimizat Pentru a preveni explozia gradienților din rețeaua recurentă, aceștia trebuie tăiați, tăiați la o anumită dimensiune maximă admisă (în engleză aceasta se numește gradient clipping) Pentru aceasta, există doi parametri care pot fi transferați oricărui optimizator din Keras: • cUpnogp va scala vectorul gradient astfel încât norma sa să nu depășească pragul specificat; • cUpvalue va tăia pur și simplu la pragul dat fiecare componentă a gradientului în mod individual Exemplu: generarea textului caracter cu caracter Gradienții trebuie tăiați întotdeauna atunci când antrenați rețelele din LSTM-uri sau GRU-uri, în special cele profunde; referințe la acest lucru sunt în toate articolele pe care le-am folosit în această secțiune În cazul nostru, să decupăm gradienții la o normă de : de la keras optimizers import model Adam compile(loss='categorical crossent mountain', optimizator=Adam(clipnorm=l ), metrics=['accuracy']) Acum aproape totul este gata pentru a rula optimizarea; dar mai întâi, două detalii mai interesante care sunt mai mult menite să demonstreze caracteristicile convenabile ale bibliotecii Keras decât să îmbunătățească antrenamentul modelului În primul rând, am definit procedura get matrices astfel încât dimensiunea tensorilor de ieșire să depindă de lungimea maximă a propozițiilor de intrare Acest lucru a fost făcut intenționat: acum putem introduce mini-loturi generate de procedura get matrices și nu toate propozițiile din ele vor fi neapărat "terminate" cu zerouri până la cel mai lung din întreg textul, ci pur și simplu lungimea propozițiilor în diferite mini-loturile vor diferi Acest lucru este convenabil, dar pentru aceasta trebuie să alimentați mini-loturi secvențial la intrarea procedurii de potrivire și, până acum, putem alimenta întregul set de date la intrarea sa Din fericire, acest lucru nu este dificil de făcut în Keras: clasa Model are o metodă fit generator care ia ca intrare nu un set de date, ci o funcție generatoare care generează mini-loturi unul câte unul Să scriem o astfel de funcție Mai jos, pentru simplitate, nu am scris un generator separat pentru setul de validare, ci am generat matrice pentru acesta o dată pentru totdeauna; , este fracțiunea setului de validare testjlndices = np random choice(range(len(propoziții)), int(len(propoziții) * , )) sentences train = [ propoziții[x] for x in set(range(len(sentences))) - set(test indexes) ] sentences test = [ sentences[x] for x in testjlndices] sentences train = sorted(sentences train, key = lambda x : len(x)) X test, y test = get matrices(sentences test) batch size = def generate batch(): în timp ce este adevărat: for i in range( int(len(sentences train) / batch size) ): sentences batch = sentences train[ i*batch size : (i+l)*batch size ] randament get matrices(sentences batch) Acum funcția generate batch va parcurge secvențial setul de date, împărțindu-l în mini-loturi de propoziții Și pentru a-l face și mai semnificativ, am presortat sentences train după lungime, așa că acum Și dacă un articol nu spune acest lucru, atunci, cel mai probabil, autorii pur și simplu au uitat să-l scrie sau l-au omis pentru evidență De exemplu, în [ ] Alex Graves face o notă de subsol că gradienții au fost tăiați în toate lucrările sale anterioare și în codul pe care l-a postat, dar până în [ ] a uitat pur și simplu să menționeze acest lucru Capitolul mini-loturile vor fi progresiv mai largi, propozițiile vor avea aproximativ aceeași lungime și nu vor mai fi prea multe resturi de completat PADDING CHAR A doua caracteristică importantă a Keras este funcțiile de apel invers Metoda fit (și fit generator, de asemenea, desigur) are un parametru opțional de apeluri inverse, iar dacă îi treceți o listă de funcții, acestea vor rula după fiecare epocă de antrenament; acest lucru este foarte convenabil, deoarece nu trebuie să scrieți bucla reală de antrenament Există exemple standard cu care puteți scrie un jurnal de diferite statistici pe măsură ce învățați, salvați greutățile modelului etc De fapt, toate graficele de erori și valorile funcției de pierdere pe seturile de antrenament și validare, pe care le-am construit toate timpul și va fi construit în această carte, sunt făcute exact Să adăugăm două funcții standard de apel invers: din keras callbacks import ModelCheckpoint, CSVLogger cb sampler = CharSampler(char vectors, model) cb logger = CSVLogger('sin l/' + model fname + ' log') Dar asta nu este tot Am construit un model care ia texte ca intrare și încearcă să învețe cum să prezică următorul caracter Rămâne doar să înțelegem cum acum, de fapt, să generăm texte și să adăugați ceva la cod care va scrie aceste texte La ieșirea din ultimul său strat, modelul generează ponderi xw ale anumitor cuvinte w; aceste ponderi nu se adună neapărat la una și nu au neapărat semnificația probabilităților, așa că avem posibilitatea de a alege exact cum să le transformăm în probabilități de eșantionare Funcția softmax sugerează că este rezonabil să alegeți probabilitățile rezultate după cum urmează: p(w) oc e~tXi} Există un parametru liber T în această formulă; T se numește temperatura de eșantionare, iar cuvântul "temperatura" este folosit aici literalmente, în sensul obișnuit de zi cu zi: în fizică, temperatura apare exact în același mod Ideea este următoarea: dacă T este mare (temperatura este ridicată), atunci exponenții vor fi destul de mici în valoare absolută, rezultatele exponențiației nu vor fi nici prea mari, iar probabilitățile vor fi suficient de apropiate la ieșire, că este, vom eșantiona foarte aleatoriu Și dacă T este mic (temperatura este scăzută), atunci, dimpotrivă, exponenții vor fi destul de mari în valoare absolută și, după ridicarea la o putere, se vor obține adesea numere foarte mici, practic zero, și nu atât de multe probabilitățile se vor dovedi a fi diferite de zero; cu alte cuvinte, cu o temperatură mică, vom obține mult mai des una sau două valori cu cele mai mari greutăți Purtând-o la limită, ca Γ -> oo obținem o distribuție uniformă (toți indicatorii sunt egali cu zero), iar pentru Γ -> obținem o distribuție care este complet concentrată în rezultatul cu ponderea maximă Să vedem acest efect într-un exemplu numeric, pentru un vector de greutate specific x: Exemplu: generarea textului caracter cu caracter x = [ , , ], = , => p ~ ( , , , , , ); x = [ , , ], = , = "( , , , , , ); x = [ , , ], = , = "p-a ( , , - " , - " ) În exemplu, se dovedește că la T = , eșantionăm aproape egal, primul rezultat câștigă destul de mult; iar la T = , , viața nu este suficientă pentru a aștepta al treilea rezultat, aproape întotdeauna îl vom vedea doar pe primul La generarea de texte din model, va exista același efect: cu aceleași ponderi ale modelului de limbă, eșantionarea cu o temperatură ridicată va fi mai diversă, inclusiv adesea complet aleatorie, în timp ce eșantionarea cu o temperatură scăzută va fi mai stabilă, mai mult adesea vor produce aceleași intrări similare Rămâne doar să scrieți generarea mai multor texte sub forma unei alte funcții de apel invers De data aceasta va trebui să-l scriem singuri, așa că să-l moștenim din clasa keras apeluri inverse Reapelați și suprascrieți metodele on train begin (ce trebuie să faceți la începutul antrenamentului) și on epoch end (ce să faceți după fiecare epocă) din keras callbacks import Clasa de apel invers CharSampler(Callback): def init (seif, char vectors, model): seif char vectors = char vectors seif model = model def on train begin(self, logs={}): seif epoca = dacă os path isfile(output fname): os remove(output fname) eșantion def (seif, preds, temperatură= , ): preds = np asarray(preds) astype('float ') preds = np log(preds) / temperatură exp preds = np exp(preds) preds = exp preds / np sum(exp preds) probas = np random multinomial(l, preds, ) return np argmax(probas) def sample one(self, T): rezultat = START CHAR în timp ce len(rezultat) m: dacă, de exemplu, numărăm grame și nu am văzut niciodată secvența "Fenerbahce a învins clubul Manchester" înainte de " (un cuvânt rar "Fenerbahce", iar un astfel de eveniment nu are loc des), trebuie încă să ne dăm seama cum să înlocuim corect aici statisticile pentru grame de forma "învinge clubul Manchester " sau trigramele formei "clubul Manchester " Există multe lucrări interesante dedicate modelelor de limbaj statistic; să alegem dintre ele [ , , , ] Și în lucrarea [ ], Benji și colab , pe baza sarcinii de a construi un astfel de model de limbaj, au propus ideea reală a reprezentărilor de cuvinte distribuite, care a sugerat predarea după cum urmează: • fiecărui cuvânt din dicționar i E V i se va atribui un vector caracteristic Wi (vector de reprezentare a cuvintelor, încorporare a cuvintelor) de dimensiunea d, Wi E deja în [ ] câteva sute erau numite valori tipice ale lui d; Capitolul • Să exprimăm acum probabilitatea ca cuvântul r să apară într-un context local , cn (să zicem, vine imediat după cuvintele , cn) în funcție de acești vectori caracteristici: p(r|s = f(wi,wC , ,wCn-e\ unde wC , , wCn sunt vectori cuvânt din context și / este o funcție cu parametrii Ѳ, care primește vectori cuvânt ca intrare; • și acum, având un corpus mare de texte ca set de date, puteți antrena pur și simplu atât parametrii funcției /, cât și în același timp vectorii de reprezentare w înșiși, maximizând logaritmul probabilității totale a corpusului C W) \u d E o w'-'' wt-n + i-, Ѳ) + R (W, ), t unde t rulează prin toate ferestrele de cuvinte disponibile în corpus de la la r, iar u(\\' Ѳ) este un regulator Ca sarcină parametrică pentru funcția /, puteți, desigur, să luați un aproximator universal al tuturor lucrurilor din lume - o rețea neuronală Ideea modelului modern word vec este aproape aceeași cu modelul original al limbajului rețelei neuronale de la [ ] A fost propus de Tomasz Mikolov și colab în [ , ] în două versiuni simultan: sub forma unui sac continuu de cuvinte (CBOW) și sub forma arhitecturii skip-grand Ideea din spatele word vec este să înveți să prezici un cuvânt din contextul său sau invers Esența modelului CBOW este de a învăța cum să rezolvi cât mai bine următoarea problemă: să restabiliți cuvântul însuși din contextul dat al cuvântului; de fapt, aceasta este o sarcină directă de construire a unui model de limbaj Abia acum putem alege ferestre după cum ne dorim: nu trebuie să prezicem următorul cuvânt din precedentele, ca în modelul de limbă, dar putem, de exemplu, să încercăm să prezicem cuvântul central din fereastra din stânga și contexte potrivite Predicția în sine este făcută de un model, la fel ca o rețea neuronală; în general, de fapt, word vec este o rețea neuronală, dar o rețea neuronală superficială, cu un nivel ascuns Arhitectura rețelei corespunzătoare modelului CBOW este prezentată în fig , a \ a în realitate, modelul face următoarele: • fiecare intrare a rețelei este un vector într-o reprezentare one-hot a dimensiunii V, unde V este dimensiunea dicționarului; • stratul ascuns al reţelei este de fapt matricea W a reprezentărilor vectoriale ale cuvintelor; A n-a linie a lui W conține reprezentarea celui de-al n-lea cuvânt din dicționar; • la calcularea ieșirii stratului ascuns, luăm pur și simplu media tuturor vectorilor de intrare; această simplitate a modelului este importantă pentru a Și din nou, așa cum se întâmplă adesea în cartea noastră, o traducere reușită nu este selectată și nu este folosită de nimeni; să lăsăm doar skip-gram Reprezentări ale cuvintelor distribuite: word vec în spațiul de reprezentare, relațiile dintre vectorii de cuvinte au fost și ele cât se poate de simple; • iar rezultatul este o anumită estimare Uj pentru fiecare cuvânt din dicționar; apoi distribuția posterioară a modelului este calculată folosind softmax obișnuit: • deci funcția de pierdere cu o singură fereastră este de a face distribuția posterioară cât mai aproape posibil de distribuția datelor: \v\ L = - logp(î|ci, , cn) = -Uj + log Y exp(uy) >'=i Și modelul skip-gram funcționează exact în sens invers: acum nu anticipăm un cuvânt făcând o medie a contextului, ci încercăm să prezicem fiecare cuvânt din context pentru un anumit cuvânt Arhitectura de rețea corespunzătoare este prezentată în fig b Stratul de ieșire produce acum n distribuții multinomiale, câte una pentru fiecare cuvânt de context: iar funcția de pierdere a modelului pe o fereastră arată ca Cum să antrenezi un astfel de model? Prezentarea noastră a ceea ce se întâmplă atunci când un model word vec este antrenat nu va urma lucrările originale [ , ] ci mai degrabă o explicație detaliată [ ] care a apărut la scurt timp după, pe care o recomandăm ca sursă principală Să încercăm să explicăm rezultatul în modelul skip-gram, unde pentru un anumit corpus de text D am dori să alegem parametrii modelului Ѳ în așa fel încât să maximizăm probabilitatea globală a corpusului: C )=P P = P iED \cEC(g) / (i,c)ED unde C(r) este setul de contexte locale ale cuvântului i, setul de cuvinte care apar într-o fereastră mică în jurul cuvântului i În word vec, parametrizăm probabilitatea p(c | r; t) ca o funcție softmax a posibililor vectori de context: Capitolul Orez modele word vec (vezi și [ ]): a - CBOW, b - skip-gram p(c I i; Ѳ) = exp(wrw, ) EU' exp(wjwj ' unde wc este vectorul context pentru cuvântul c, nu este același cu vectorul Wi însuși Cu alte cuvinte, pentru fiecare cuvânt i, antrenăm doi vectori, rw și rw, dintre care unul îl vom substitui când i este cuvântul central în fereastră, iar celălalt când cuvântul contextului, adică unul dintre cuvintele prezise Notă importantă: de ce avem nevoie de doi vectori diferiți pentru același cuvânt? S-ar părea că aceasta este o complicație inutilă: de ce să nu luăm aceiași vectori în ambele situații? Acest lucru nu va îngreuna antrenamentul, iar parametrii vor deveni la jumătate O posibilă motivație pentru ca acești doi vectori să fie diferiți este explicată în [ ] în felul următor: se întâmplă adesea ca cuvântul i însuși să apară rar în propriul său context În afară de unele exemple specifice, este greu de imaginat că cuvântul "fotbal" se află adesea în vecinătatea unui alt cuvânt "fotbal", cuvântul "cartier" se află adesea în vecinătatea unui alt cuvânt "cartier" etc Prin urmare , modelul va dori pentru majoritatea cuvintelor i să reducă p(i I r; t) la zero Dacă vectorii contextului și cuvântul în sine sunt aceiași, atunci pentru aceasta va fi necesar să se reducă produsul scalar wj la zero, adică pur și simplu norma vectorului, iar acesta ar fi un efect extrem de nedorit Prin urmare, pentru fiecare cuvânt, vom antrena doi vectori independenți În acest moment, textul nostru a devenit un exemplu care se infirmă: un caz rar! Reprezentări ale cuvintelor distribuite: word vec Acum puteți lua probabilitatea generală, mergeți la logaritmii din ea și pictați-o conform formulei de mai sus: logp(c|i; ) = (i,c)eD arg max P p(s | g; Ѳ) = arg max (i,c)eD = argmax (r,c)e£> \ c! J Dorim să optimizăm această sumă, iar ipoteza principală a modelului word vec este că o astfel de optimizare va duce la rezultatul dorit, adică reprezentări bune ale cuvintelor distribuite Această presupunere, apropo, este destul de întunecată și neevidentă, dar totul pare să funcționeze, așa că nu vom atinge problema de bază de optimizare Principalul lucru este să înțelegeți cum să o rezolvați, deoarece la prima vedere se pare că această sarcină este extrem de complicată: trebuie să calculați J C / exp(w Jwj, adică să însumați toate contextele posibile, peste toate cuvintele din dicționar , dintre care sunt sute de mii care ce să faci? Mikolov et al [ ] au propus o metodă specială numită eșantionare negativă pentru a rezolva o astfel de problemă de optimizare complexă Ideea este simplă: în loc să numărăm suma totală J C/ exp(w Jwj, să alegem aleatoriu unele dintre elementele sale ca exemple negative și să le actualizăm doar, adică să înlocuim suma peste tot c' cu o sumă mult mai mică J c/ e£) / exp(wjw^), unde D' este un subset mic selectat aleatoriu de exemple negative De ce ar putea chiar asta să funcționeze? De fapt, eșantionarea negativă este, de asemenea, o încercare de a înregistra probabilitatea generală, dar probabilitatea unui eveniment ușor diferit Să considerăm o pereche (r, c) din cuvântul r și contextul c; atunci scopul nostru este de a maximiza probabilitatea ca perechea (r,c) să provină din date, adică probabilitatea p((r,c) e D; t), pe care am parametrizat-o cu un vector de parametri t De fapt, avem multe astfel de perechi și am dori să găsim: arg max p(G,c) e D; Ѳ) = arg max l°gp(G,c) GD; Ѳ) (i,c)ED (i,c)cD Acum să parametrizăm p((r, c) GD; Ѳ) în termenii aceluiași softmax Există doar două rezultate posibile aici, iar softmax se transformă într-un sigmoid logistic ; ) = - -Y' + exp ( -W j \ Capitolul Acum dorim să maximizăm logaritmul probabilității generale a datelor: arg max l°gp(G,c) ?:#) = arg max l°g m -g - (i,c)eD Ѳ (i,c)eD + exp (-iD Iată o astfel de sarcină; cum sa o rezolv? Da, foarte simplu: valoarea optimă a fiecărui logaritm va fi atinsă dacă wcWi este cât mai mare posibil; nu există alte restricții, așa că să setăm toți vectorii wc și Wi egali între ei și cu o normă mai mare și, astfel, să obținem probabilitatea optimă, care este aproape egală cu unu Stai, ceva nu este în regulă aici Problema este că avem un set de date de facto pentru clasificarea binară (fie din perechea de date (r, s) sau nu), în care există doar exemple pozitive (de fapt, întregul set de date D) și deloc negative! Prin urmare, nu este de mirare că clasificatorul optim este să răspundă întotdeauna "da" Această problemă poate fi rezolvată prin eșantionare negativă Să colectăm câteva exemple negative alegând pur și simplu cuvinte și contexte aleatorii pentru ele care nu sunt în date; presupunerea aici este că, dacă combinăm cuvinte aleatorii, există o probabilitate foarte mică de a avea un text rezonabil, ca în Biblioteca lui Borges din Babel Dacă colectăm un set "negativ" Df din astfel de ferestre cu cuvinte aleatorii, atunci problema de maximizare a probabilității va arăta astfel: arg max P[ p((r,c)eP; ) A p((r',c') £ D; ) (r,c)e£> (r/,c/)e£)/ Să facem câteva transformări aritmetice, evidențiind tot ceea ce privește un exemplu (r, c) e D: arg max P p((i,c)eD; ) ]^[ ( - pD/ c ) G : #)) = (g,s)s E = argmax logp((i, c) SD; t) + Y log ( - p((i', c') e D; )) (i, c)eD =arg (i,c)eD = argmax (i,c)eD (i,cf)eDf + o - / t \ (ic')eD' l + explwjzwj Reprezentări ale cuvintelor distribuite: word vec Aceasta este formula de bază de eșantionare negativă din [ ]: pentru fiecare fereastră, selectăm câteva mostre negative aleatoare D' și facem o etapă de coborâre a gradientului pentru funcția de pierdere: -logcr^wjw^-J logcr(-wjw^ (i,c')ED' Același lucru se întâmplă și pentru versiunea CBOW a word vec; nu vom mai repeta, poate, concluzia aproape identică, dar cititorul poate vedea singur că totul funcționează exact în același mod Înainte de a trece la practică - încă o privire interesantă asupra word ѵes Lucrarea [ ] oferă o interpretare a modelului word vec ca o extindere a matricei Luați în considerare din nou funcția de pierdere, care este optimizată în modelul word vec: £ = V fb* + fcEc' [l°g > și "navă" este absolut evident că este semnificativ mai mult și, respectiv, mai puțin decât unitate Aproximativ aceasta este ceea ce modelul GloVe vrea să exprime, prin urmare modelează nu probabilitățile pjj în sine, ci relațiile lor, antrenând funcția F(wp Wj-wk) = -, pjk unde Wi și Wj sunt vectorii cuvintelor i și j în spațiu, iar wk sunt așa-numiții vectori de context, care ar trebui să reflecte faptul că acum aproximăm relația dintre cuvintele i și j nu în general, ci tocmai în contextul cuvântului k Rămâne doar să înțelegem ce să luăm ca funcție F Teoretic, F ar putea fi o funcție foarte complexă: am putea, de exemplu, să alimentam concatenarea vectorilor Wi, Wj și la intrarea unei rețele neuronale profunde care ar face ceva groaznic cu ei Dar scopul nostru final nu este deloc să aproximăm bine matricea de co-ocurență, ci să obținem un rezultat bun se întâlnesc unul lângă altul în această formă inițială, "club de fotbal" sau "echipaj de navă" nu sunt potrivite Capitolul vectori! Aceștia sunt vectori între care există relații simple și de înțeles, ca un rege - un bărbat + o femeie = o regină Prin urmare, creatorii GloVe au limitat imediat setul de funcții posibile, crezând că raportul de probabilitate ar trebui exprimat în funcție de un argument, produsul scalar al diferenței dintre Wi nwj și w/y Datorită acestei limitări, GloVe va încerca să învețe relații exact liniare între vectorii care reprezintă cuvinte Rămâne doar de observat că funcția F trebuie să aibă totuși o oarecare simetrie internă, deoarece matricea apariției comune a cuvintelor este simetrică și nimic nu ar trebui să se schimbe în trecerea de la X la Xm și de la w la w; în timp ce funcţia noastră nu are încă o asemenea simetrie Pentru a o adăuga, să introducem încă o ipoteză: să presupunem că F nu doar traduce diferența dintre Wi și Wj în raportul probabilităților corespunzătoare, ci și, în general, traduce suma numerelor în produsul lor, iar diferența în raportul : F((wi wiwk) PlJ wjwfc) Pjk Acest lucru va ajuta, de asemenea, ca funcția F să fie "regulată", pentru a încerca să exprime relații și mai simple și mai globale Și acum mai rămâne un pas pentru a găsi funcția F în mod explicit: nu există foarte multe astfel de mapări și se dovedește că F este doar un exponent: w! wk = log(pife) = log(Xife) - log(Xi) Pentru ca vectorii cuvintelor și vectorii contextelor să devină simetrici, este suficient acum să adăugați încă un termen liber li pentru cuvânt și bj pentru context; atunci log(Xf) poate fi ascuns în b și obțineți un model simetric frumos: W wk + bi + bk = log(Xifc) Are doar două probleme: • în primul rând, log(JQfc) va diverge foarte des, deoarece X^, numărul de apariții comune a două cuvinte, este foarte adesea egal cu zero și, în general, X este o matrice foarte rară; Notă de subsol pentru persoanele cu studii matematice: aceasta înseamnă că F este un homomorfism de la grupul (R, +) la grupul (R | , x) GLOVE: așezarea corectă a matricei • în al doilea rând, cântărește toți X^ în mod egal, dar frecvențele relative a două cuvinte foarte rare sunt în mare măsură o chestiune de întâmplare, iar frecvențele relative ale cuvintelor foarte frecvente nu sunt foarte revelatoare GloVe rezolvă ambele probleme dintr-o singură lovitură; pentru a face acest lucru, vom antrena greutățile w și w nu printr-o simplă sumă a abaterilor pătrate, ci printr-una ponderată Astfel, în GloVe, funcția obiectiv pentru învățarea reprezentărilor cuvintelor Wi și Wi este următoarea: J = V f(Xij) Wj +bi + bj - log XyJ, M= unde X e este încă matricea de co-ocurență a cuvântului, = Uj *ij este numărul total de apariții comune ale cuvântului i, w e Rd este reprezentarea vectorială reală a cuvântului în spațiul euclidian de dimensiunea d, w e este reprezentarea contextului cuvântului ca vector al aceluiași dimensiunea d, V este dimensiunea dicționarului Ei bine, / este o funcție care nu atribuie ponderi prea mari aparițiilor comune comune și, de asemenea, reduce la zero factorii în care ar fi trebuit să existe un logaritm de zero; cu alte cuvinte, /( ) = , și / să fie nedescrescătoare (astfel încât frecvențele mici de apariție să obțină ponderi mici), dar / nu ar trebui să crească prea repede cu argumentul său, pentru a limita influența celor mai populare cuvinte uzuale O funcție de greutate comună utilizată în GloVe este: (^)"' dacă x X Și poți antrena astfel / din nou pur și simplu maximizând probabilitatea, deoarece gradientul este perfect "tras " prin funcții continue folosind formula de schimbare a variabilelor: Px(x) - Pz(f(x)) det ( \ooh j - unde este matricea derivatelor parțiale (iacobiene) ale funcției / Desigur, luați în considerare Ar fi prea greu să scrii un jacobian frontal, dar de multe ori poți veni cu ceva De exemplu, în [ ] se propune o formă specială a funcției /, pentru care determinantul este ușor de calculat (jacobianul se dovedește a fi triunghiular), iar componentele acestei funcții pot fi apoi modelate de orice - de exemplu , rețele neuronale În [ ], această abordare este propusă pentru generarea de imagini, iar rezultatul este destul de convingător Capitolul În parte, am început să răspundem la aceste întrebări atunci când ne-am uitat la rețelele neuronale recurente Arhitecturile recurente sunt de obicei antrenate pentru a prezice următorul element al unei secvențe și, prin urmare, pot fi adaptate în mod natural la generație, așa cum am făcut cu modelele de limbaj Dar acest lucru nu răspunde încă la întrebarea noastră despre generarea cifrelor scrise de mână, deoarece nu există o secvență ca atare, iar modul de utilizare a acestora este încă neclar Vom răspunde la această întrebare puțin mai târziu, dar deocamdată vom continua despre modelele generative în general Pentru ce sunt modelele generative? În primul rând, ele ne permit să verificăm cât de bine am înțeles distribuția datelor; Privind la activarea filtrelor unui autoencoder convențional, nu este ușor de înțeles, dar din modelul generativ, poți, de fapt, să generezi ceva și să vezi cum iese În al doilea rând, modelul generativ permite uneori utilizarea nu numai a datelor etichetate, făcând învățare cu implicarea parțială a profesorului (învățare semi-supravegheată) Dacă doriți să distingeți pisicile de câini în fotografii, este posibil să nu aveți multe date bine etichetate, cu pisicile și câinii etichetați cu minuțiozitate manual Dar, în orice caz, partea leului din sarcină este de a înțelege, în general, modul în care fotografiile rezonabile diferă de zgomotul aleatoriu în milioane de pixeli Cu alte cuvinte, o distribuție p(y | x) în care y este un bit din "este o pisică?" și x este întreaga fotografie poate fi mai ușor de antrenat dacă știi mai întâi ceva despre distribuția p(x) ca un intreg În al treilea rând, modelele generative sunt bune la sarcini care pot avea mai multe răspunsuri corecte Imaginați-vă, de exemplu, problema de a prezice următorul cadru dintr-un videoclip [ ] Acțiunea se poate dezvolta în mai multe moduri diferite și toate sunt răspunsuri la fel de bune la întrebarea care va fi următorul cadru Cu toate acestea, dacă luați și media toate răspunsurile posibile, obțineți ceva neclar-intermediar și nu va ieși un cadru rezonabil din videoclip Iar modelul generativ trebuie să fie capabil să antreneze o distribuție multimodală, adică o distribuție cu vârfuri multiple corespunzătoare răspunsurilor multiple posibile Și, în sfârșit, în al patrulea rând: uneori trebuie doar să generați răspunsuri De exemplu, să presupunem că vrem să generăm o nouă fotografie cu o pisică drăguță pe ea S-ar putea părea că construcțiile autoencoderelor din Secțiunea ne vor ajuta aici: în orice autoencoder a existat o parte de decodare care, printr-un set de factori ascunși, este capabilă să restaureze pisica originală Dar se dovedește că nu este posibil să folosim direct această parte ca o rețea generatoare: de unde putem obține un set adecvat de factori ascunși? De unde să începeți restaurarea intrării? Să remarcăm pe scurt aici că arhitecturile recurente se aplică procesării imaginilor; Există o serie de lucrări dedicate așa-numitelor rețele convoluționale recurente [ , , , ], dar toate aceste modele ajută mai degrabă pur și simplu la îmbunătățirea caracteristicilor convoluționale și nu duc la învățarea cum să genereze bine imagini Modele generative și învățare profundă Orez Taxonomia modelelor generative [ ] Da, codificatorul automat poate proiecta colectorul de date de la o dimensionalitate ridicată la o dimensionalitate mult mai mică, dar în această dimensionalitate scăzută, colectorul este încă destul de complex și nu puteți alege și alege astfel de factori ascunși pentru a face o pisică cu aspect rezonabil dintre ei Vom ajuta cu această durere în Secțiunea , dar deocamdată să continuăm despre modelele generative în general Taxonomia generală a modelelor generative în contextul rețelelor neuronale profunde propusă de Knap Goodfellow în [ ] este prezentată în Fig În carte, nu ne vom opri în detaliu asupra fiecăreia dintre aceste construcții; ne vom limita la câteva exemple și apoi trecem imediat la conținutul principal: generarea de rețele adverse Principalul criteriu prin care modelele generatoare diferă este dacă ele reprezintă în mod explicit densitatea p(x, y); cu alte cuvinte, putem calcula p(x, y) în funcție de x și y, sau modelul este o cutie neagră care poate genera noi exemple (x, ?/), dar nu poate calcula densitatea De regulă, modelele în care densitatea este cunoscută fac în mod explicit câteva ipoteze suplimentare asupra structurii acestor distribuții Sau sunt realizate mai târziu, ca, de exemplu, FVBN (fully visible belief networks) [ ], care a apărut încă din anii , în care densitatea de distribuție a modelului este prezentată după cum urmează: P p((r)) \u d Prshch I wі l-i) I = Capitolul Orez WaveNet: a - convoluții cauzale; b - structura modelului [ ] O astfel de descompunere este întotdeauna adevărată, iar ipotezele simplificatoare de aici încep mai târziu, când modelăm distribuțiile unidimensionale p(xi | x± Ideea FVBN este că ne vom ocupa cumva de distribuțiile unidimensionale - în primele lucrări, acestea erau reprezentate de acele sau alte modele clasice de învățare automată, iar acum le putem modela cu o rețea neuronală Această idee stă la baza unuia dintre cele mai bune modele de lucru cu sunetul în acest moment, WaveNet, dezvoltat de aceeași companie Google DeepMind [ ] Nu am vorbit prea mult despre sunet în această carte și nu există atât de multe lucrări în care rețelele neuronale profunde ar fi folosite pentru a genera sunet, așa că vom vorbi pe scurt despre WaveNet Ideea venită de la FVBN aici este de a modela o distribuție condiționată T p(x I h) = P p(xt I x , ,^ i ,h) t=i folosind rețele neuronale Este util să faceți convoluții unidimensionale pe datele audio, dar convoluțiile nu ar trebui să "curge înainte" în timp, așa că WaveNet folosește așa-numitele convoluții cauzale, care Modele generative și învățare profundă priveste doar inapoi În plus, este rezonabil să le subțiem în timp pentru a obține o privire "generalizată" asupra unei istorii mai îndepărtate Toate acestea sunt prezentate în Fig , a, unde săgețile negre arată conexiunile implicate în generarea următoarei ieșiri: rețineți că toate intrările xi, , xq afectează ieșirea celui de-al treilea strat convoluțional, dar fiecare intrare participă datorită structurii rare a straturilor ulterioare doar o dată Și apoi, cu ajutorul unor astfel de circumvoluții, arhitectura prezentată în Fig b Această arhitectură constă din mai multe straturi succesive de convoluții rare conduse de o structură asemănătoare unei porți și prezintă din nou trucuri pe care le-am văzut de atâtea ori: conexiuni reziduale, conexiuni "prin nivel" și așa mai departe Drept urmare, producția de vorbire este destul de bună, iar în producția muzicală acesta este probabil unul dintre cele mai bune modele existente O idee similară a generării succesive a unui obiect în funcție de partea sa deja generată este dezvoltată în modelele PixelRNN [ ] și PixelCNN [ ], în care modelul construiește o imagine pixel cu pixel, de la stânga la dreapta și de sus până jos Fiecare pixel următor xn este generat din distribuția condiționată p(xn I xi, , xme i) și este deja modelat fie de o rețea recurentă, ca în PixelRNN, fie de o rețea convoluțională, ca în PixelCNN Ca și în cazul WaveNet, în ambele cazuri, trebuie făcute unele modificări în structura rețelelor recurente și convoluționale Nu vom intra în detalii aici, dar principalele caracteristici ale PixelRNN și PixelCNN sunt prezentate în Fig : în fig , a arată o vedere generală a filtrelor convoluționale din PixelCNN, în care o mască specială face ca rețeaua să nu poată "fuge înainte" atunci când este generată secvenţial, iar în fig , b prezintă conexiuni în două versiuni de PixelRNN: versiunea linie cu linie alimentează caracteristicile din stratul anterior de pixeli calculate de arhitectura convoluțională la intrarea LSTM, iar diagonala bidirecțională LSTM încearcă să folosească întregul context acumulat Există, de asemenea, modele similare cu atenție (vezi Secțiunea ), care au fost aplicate în celebra lucrare [ ] pentru recunoașterea modelelor și recent aplicate cu succes generarii de modele [ ] Modelul DRAW din [ ] "desenează" secvențial o imagine folosind o rețea recurentă, iar mecanismul de atenție ajută rețeaua să se concentreze pe partea dorită a imaginii la un moment dat Dacă doriți să exprimați în mod explicit distribuții foarte complexe în generarea de modele, trebuie să le aproximați cu altele mai simple, care, la rândul lor, pot fi deja exprimate în mod explicit Pentru aceasta se folosesc de obicei metode variaționale, pe care le vom discuta pe scurt în Secțiunea Principala alternativă la toate acestea este folosirea unor modele generative implicite, în care nu încercăm să obținem o funcție care calculează densitatea distribuției dorite în fiecare punct, ci pur și simplu modelăm ceea ce ne trebuie din acest model Și de obicei trebuie să poți proba Rezultatele WaveNet pot fi auzite pe site-ul web DeepMind [ ] Capitolul Mască cu filtru de convoluție LSTM diagonal bidirecțional Imagine generată O O DESPRE O b Orez Generam o imagine pixel cu pixel: a - PixelRNN; b - PixelCNN din distribuție, adică, de fapt, generează puncte noi conform acestei distribuții complexe De exemplu, dacă vrem doar să învățăm cum să generăm fotografii cu pisici drăguțe, nu este atât de important pentru noi să avem o funcție explicită de densitate p(x) care ar putea spune cât de probabil este să avem o pisică în fața noastră - este suficient doar pentru a putea genera noi x ~ p(x ) În inferența Bayesiană clasică, eșantionarea din distribuții multivariate complexe se face folosind lanțuri Markov: să încercăm să construim un lanț Markov care descrie o mers aleatorie sub un diagramă de densitate de distribuție; dacă rătăcim suficient de mult sub graficul densității p(x), se poate presupune că punctul rezultat este un punct aleatoriu luat din distribuția p(x) Această abordare se numește metode MSMS, din cuvintele lanț Markov Monte Carlo [ , ] O descriere completă a acestor metode depășește cu mult scopul acestei cărți Observăm doar că s-au făcut deja încercări destul de reușite de a modela acest lanț Markov cu o rețea neuronală profundă; rezultatul este cunoscut sub numele de Rețele Stochastice Generative [ , , ] Dar vom merge pe cealaltă parte în acest capitol Rețele adversare Îl privesc [Messi] nu ca pe un rival, ci ca pe o persoană care mă face mai bun și îl fac mai bun C Ronaldo "Reale" generatoare de rețele necesită algoritmi de inferență destul de complexi, astfel de modele se dovedesc adesea a fi destul de fragile, iar antrenamentul lor este o știință complet separată, destul de complicată Dar există și alte idei care fac posibilă implementarea modelelor generative cu mare succes și, în același timp, să se facă fără toate mașinile complexe ale modelelor generative nesupravegheate De exemplu, în capitolul Rețele adversare vom lua în considerare antrenarea unui model probabilistic cu aproximări variaționale care încearcă să construiască cea mai bună aproximare la o distribuție posterioară complexă, alegând-o dintr-o clasă (foarte bogată) de distribuții generate de o rețea neuronală Ieșirea este o rețea care poate genera noi exemple dintr-o bună aproximare a distribuției posterioare Și acum vom arunca o privire mai atentă la unul dintre modele, ideea căruia este și mai simplă, dar în același timp funcționează excelent și sunt acum în fruntea studiului rețelelor neuronale - generatoare de rețele adverse (generative Reţele adversare, GAN-uri) Ideea de bază este într-adevăr foarte simplă, dar a apărut destul de recent, într-o lucrare din , al cărei autor principal a fost Knep Goodfellow, doctorand Joshua Benji [ ] Și acum rețelele adverse generative se dezvoltă foarte repede și, așa cum scrie Jan LeKun într-una dintre postările sale [ ], sunt folosite activ în Facebook pentru procesarea imaginilor și video Să începem cu ce și cu ce concurează GAN Pluralul din numele modelului nu este de fapt lipsit de motiv: în versiunea de bază, modelul de generare a rețelelor adverse este format din două rețele neuronale artificiale care concurează între ele Unul dintre ele, generatorul (generatorul; tot ce are legătură cu generatorul va fi notat cu litera g sau G), generează obiecte în spațiul de date, iar al doilea, discriminatorul (discriminatorul; vom vorbi despre el cu indici d sau / ), învață să distingă obiectele generatoare generate de exemplele reale din setul de antrenament Astfel, se dovedește că modelul GAN este format din două părți cu obiective opuse: • scopul discriminatorului este de a demonstra că generatorul face un fel de prostii, după ce a învățat să distingă în mod fiabil exemplele generate de generator de cele reale; cu alte cuvinte, discriminatorul rezolvă cea mai comună sarcină de clasificare binară: dat un exemplu care arată ca un element al spațiului de date, decideți dacă a fost "real" sau a fost generat de un generator; • iar scopul generatorului este de a "păcăli" discriminatorul, pentru a-l face astfel încât discriminatorul să nu poată distinge între distribuția de date pjata și distribuția pgen pe care o generează generatorul; dacă discriminatorul ar funcționa perfect, atunci acest scop ar coincide cu scopul de a învăța să genereze date din exact aceeași distribuție ca și în eșantionul de intrare; În practică, nu merge atât de bine, dar tot e bine Două observații despre terminologie În primul rând, uneori în rusă GAN-urile sunt numite "rețele concurente", dar noi suntem împotrivă: ar trebui să existe concurență pentru ceva, sau cel puțin între entitățile care încearcă să facă același lucru; iar aici sarcinile rețelelor sunt direct opuse, aproximativ ca într-un litigiu contradictoriu În al doilea rând, am vrut la început să folosim o abreviere în limba rusă pentru "generarea de rețele competitive", dar cea mai cenzură asociere pentru aceasta s-a dovedit a fi lucrările complete ale lui Vladimir Ilici Lenin, așa că abrevierea să fie engleză; acest lucru vă va ajuta în căutarea dvs dacă doriți brusc să aflați mai multe despre GAN'ax Capitolul Vezi cât de simplu este? O rețea încearcă să învețe cum să genereze exemple corecte înșelându-l pe a doua, iar a doua încearcă să distingă exemplele generate de primul de cele reale Pe măsură ce învață, treptat se îmbunătățesc reciproc, ca principalii rivali în sport Scopul practic al tuturor acestor lucruri este ca generatorul să câștige în cele din urmă și să învețe cum să facă pgen atât de asemănător cu Hapjata, încât nimeni nu va distinge - dar că el trebuie să câștige într-o luptă dificilă, altfel nu va deveni un adevărat campion Să oficializăm acum GAN-ul Pentru a face acest lucru, trebuie să înțelegeți cum poate funcționa o rețea neuronală ca generator, cum poate genera obiecte dintr-o anumită distribuție Acest lucru nu este complet evident: o rețea neuronală poate traduce intrările în ieșiri, dar ea însăși nu are nicio capacitate de a genera noi exemple din nimic În plus, ne-am dori ca rețeaua să genereze diverse exemple noi și nu doar să ne amintim câteva opțiuni gata făcute din setul de antrenament Deci, în loc să genereze de la zero, rețeaua neuronală va transforma intrările aleatoare generate de o distribuție "semință", care în toate exemplele noastre va fi doar distribuția normală standard A ( , ) (dar multivariată, desigur) Adică, în loc să cerem rețelei să genereze exemple, ceea ce este neobișnuit pentru ea, îi vom cere să transforme o funcție simplă (distribuție normală standard) într-una complexă (distribuție de date) - și aceasta este exact sarcina pentru care neuronale rețelele sunt grozave Apropo, vom vedea această arhitectură din nou în Capitolul : autoencoderul variațional se va ocupa de aproximarea distribuției exact în același mod Prin urmare, în mod formal, generatorul poate fi scris după cum urmează: G = G(z^g) Z^X, unde Z este un spațiu de factori ascunși (latenți) pe care este dată distribuția a priori pz(z) Iar discriminatorul, la rândul său, arată astfel: D = D(x- d)- X^[ , ] Mapează obiectele din spațiul de date la segmentul [ , ], care este interpretat ca probabilitatea ca exemplul să fie într-adevăr "real", din pjata și nu generat din pgen Scopul discriminatorului este de a produce maximum rezultat pe eșantionul de antrenament și pe exemplele generate de generator, este minim Funcția obiectivă pentru discriminator se află aici literalmente la suprafață: am dori ca răspunsul așteptat al discriminatorului să fie cât mai mare posibil pe exemplele pjata și cât mai mic posibil pe exemplele pgen, adică discriminatorul dorește să maximizați următoarea valoare: [lOg^W] +^^ ( !) t °g( - P(W)) ' Rețele adversare Orez Schema de funcționare a rețelei adverse generatoare (GAN) unde pgen(^) este distribuția generată de generator, pgen(^) = Gz~Pz(z) Pe de altă parte, generatorul trebuie să învețe să înșele discriminatorul, adică să minimizeze următoarea valoare în pgen: ^PgenW [log(l - o(x))] = Er^r(z) [log(l - P(G(z)))] Dacă acum combinăm aceste funcții într-una singură, atunci vom vedea că, de fapt, discriminatorul și generatorul joacă un joc unul cu celălalt, care în teoria jocurilor se numește joc minimax, rezolvând următoarea problemă de optimizare: min max V(D, G), unde GD V(D,G) = Ezh^aia(x)[ o I?(x)] + E^w[log(l - P(G(Z)))] De aici provine numele modelului Schematic, acest lucru poate fi reprezentat așa cum se arată în Fig Iar algoritmul de învățare GAN este și el foarte simplu: pur și simplu vom actualiza alternativ greutățile generatorului, apoi greutățile discriminatorului, considerând de fiecare dată "inamicul" a fi fix Această idee este foarte asemănătoare cu cea a algoritmului EM, despre care vom discuta în detaliu în Secțiunea Se dovedește că este ușor și formal să dovedești că ideea funcționează, iar odată cu procesul de învățare de mai sus, pgen converge treptat către pdata Să demonstrăm; în continuare urmează prezentarea noastră [ ] În primul rând, demonstrăm că pentru un generator fix G, distribuția optimă a discriminatorului D este: p* = Zha(x) G Pdata(x) + Pgen(x\ Într-adevăr, criteriul de învățare pentru discriminatorul D dat de un generator G este de a maximiza V(G, D): V(G,D) = f pdata(^)logL>(^)d^+ f pz(z)log(lD(g(z)))dx = Jx Jz Capitolul = / PdataWlog- ^)^ + / Pgen(^) log(l - D(x))dx = JX Jx = / (PdataW l°g D(x) +Pgen(x) log(l - D(x))) dx Jx Dar pentru orice (a, b) e R altul decât zero, funcția alogQ/) + Mog(l - y) atinge maximul pe segmentul [ , ] în punctul (verificați acest lucru direct, prin diferențiere!) Prin urmare, Dq(x) maximizează integralul în fiecare punct și, prin urmare, întreaga integrală Rețineți că atunci rezultatul învățării discriminatorului max t > V(D, G) poate fi rescris după cum urmează: C(G) = maxV(P,G) = = E^Pdate [log^W] + E^g [log(l - Dg(G(z)))] = = E(r)~Pdata [iogb^Gr)] + ^pg [log(l - DG(x))] = -E"~pdata R ( aGa (w) PdataO) + PgenO) X~Pg Buturuga ' PdataW+PgenH Și acum putem demonstra deja că minimul global al criteriului C(G) este atins dacă și numai dacă pgen = Pdata Apoi, înlocuind DG(x) = | în ecuația de mai sus pentru C(G), obținem: C(G) = log I + log I = - log Să demonstrăm că aceasta este valoarea minimă posibilă a lui C(G), realizabilă numai când Pgen = Pdata V(Dg,G): C(G) - - log + KL ( pdata Pdata + Pgen \ f I + KL I Pgen Pdata Pgen unde KL(p||q) denotă distanța Kullback-Leibler dintre distribuțiile p și q Ultima expresie este cunoscută în statistică și învățare automată ca divergența Jensen-Shannon între distribuția simulată și cea generată [ ]: C(G) = - log + JSD(pdata||pgen) Divergența Jensen-Shannon este întotdeauna nenegativă și este egală cu zero numai dacă distribuțiile sunt egale Aceasta înseamnă că minimul global este atins la pgen = Pdata și Equals C'* = - log Egalitatea pgen = Pdata înseamnă că generatorul a învățat să reproducă perfect datele din eșantionul de antrenament Exemplu practic și truc cu sigmoid logistic De asemenea, se poate dovedi că pgen converge către pjata atunci când generatorul și discriminatorul sunt antrenate alternativ Și anume, dacă modelele reprezentând G și D sunt suficient de expresive, iar la fiecare pas al algoritmului de învățare, discriminatorul atinge un optim având în vedere actualul G, apgen este actualizat pentru a îmbunătăți valoarea criteriului Ea!~pdat!l(a;)[log £'G(a:)] Tbz-pgenWtM "°C(L))b apoi pgen converge la pjata (vezi [ ] pentru o dovadă formală) Este clar că, în practică, D și G sunt rețele neuronale, iar optimizarea are loc în funcție de parametrii jd, și nu după distribuția pgen în sine în termeni generali Rețineți că, pentru a urmări în mod formal rezultatul dovedit, după fiecare pas de actualizare a generatorului, ar trebui să reantrenăm complet discriminatorul la convergență, deoarece problema de clasificare pe care o rezolvă s-a schimbat, iar generatorul ar trebui să învețe cum să înșele versiunea discriminatorului corespunzătoare celei actuale a acestuia versiuni Dar, în practică, desigur, nu vom putea antrena pe deplin un model complex la fiecare pas, așa că vom folosi, ca să spunem așa, o versiune stocastică a acestui antrenament: faceți un pas de antrenament G, apoi mai mulți pași de antrenament D, apoi încă un pas de antrenament G și așa mai departe În ciuda faptului că utilizarea rețelelor neuronale profunde duce la apariția multor puncte critice în spațiul parametrilor, rezultatele practice reușite ale utilizării lor ne permit să considerăm rețelele neuronale ca modele adecvate și (cel puțin pentru moment) să ignorăm lipsa de informații teoretice garanții Exemplu practic și trucul sigmoid logistic În practică, o persoană trebuie să dovedească adevărul, adică realitatea și puterea, această lumescitate a gândirii sale Disputa despre validitatea sau invaliditatea gândirii, izolată de practică, este o întrebare scolastică K Marx Teze despre Feuerbach Să trecem acum la cel mai interesant - experimentul Ca sarcină de model, vom antrena generatorul să eșantioneze o distribuție normală unidimensională din zgomotul uniform unidimensional În primul rând, importăm TensorFlow și numpy și setăm greutățile pentru straturile generator și discriminator Aici este de remarcat faptul că sarcina noastră nu este prea complicată și nu este nevoie să construim rețele profunde sau "large" pentru a o rezolva Cu toate acestea, este imposibil să se obțină o distribuție normală dintr-o distribuție uniformă printr-o transformare liniară, deci generatorul Capitolul trebuie să aibă cel puțin două straturi Deoarece rezolvăm o problemă unidimensională, straturile exterioare au o dimensiune de , iar cinci perceptroni sunt suficiente pentru stratul interior Un alt punct important și destul de intuitiv este că puterea expresivă a discriminatorului ar trebui să fie mai mare decât cea a generatorului: dacă discriminatorul nu poate atinge optimul, atunci penalitățile pentru generator vor fi limitate și nu îi vor permite să învețe în cel mai bun mod cale Prin urmare, am ales următoarea arhitectură de rețea: import numpy ca np import tensorflow ca tf gen weights = dict() gen weights['wl'] = tf Variable(tf random normal([ , ])) gen weights['bl'] = tf Variable(tf random normal([ ])) gen weights['w '] = tf Variable(tf random normal([ , ])) gen weights['b '] = tf Variable(tf random normal([ ])) disc weights = dict() disc weights['wl'] = tf Variable(tf random normal([ , ])) disc weights['bl'] = tf Variable(tf random normal([ ])) disc weights['w '] = tf Variable(tf random normal([ , ])) disc weights['b '] = tf Variable(tf random normal([ ])) disc weights['w '] = tf Variable(tf random normal([ ]) , ])) disc weights['b '] = tf Variable(tf random normal([ ])) Să definim acum tensori care descriu rețelele direct Mai întâi, să declarăm două "stubs", unul pentru zgomot a priori, celălalt pentru un eșantion de date reale (pe care le folosim ca distribuție normală) și să setăm un tensor corespunzător lui xd: z p = tf placeholder('float', [Niciunul, ]) x d = tf placeholder('float', [Niciunul, ]) g h = tf nn softplus(tf add( tf matmul(z p, gen weights['wl']), gen weights['bl'])) x g = tf add(tf matmul(g h, gen weights['w ']), gen weights['b ']) Alegerea funcției de activare pentru stratul ascuns nu joacă un rol important în rezolvarea acestei probleme și puteți experimenta singur alte opțiuni și puteți vedea cum distribuțiile pgen vor diferi în funcție de alegerea neliniarității Dar lăsăm liniară ieșirea generatorului, deoarece intervalele de funcții de activare standard sunt cumva limitate și dorim să repetăm distribuția normală, care este formal nelimitată Acum să setăm discriminatorul în același mod: def discriminator(x): d hl = tf nn tanh(tf add( tf matmul(x, disc weights['wl']), disc weights['bl'])) d h = tf nn tanh(tf add( tf matmul(d hl, disc weights['w ']), disc weights['b '])) Exemplu practic și truc cu sigmoid logistic scor = tf nn sigmoid(tf add( tf matmul(d h , disc weights['w ']), disc weights['b '])) scor de retur x data score = discriminator(x d) x gen score = discriminator(x g) Deoarece dorim să folosim aceleași ponderi atât pentru evaluarea eșantionului din date reale, cât și pentru evaluarea datelor generate, vom apela pur și simplu funcția care descrie discriminatorul, trecându-i tensorul corespunzător În stratul de ieșire al discriminatorului, folosim o funcție de activare a sigmoidului, deoarece vom interpreta valorile ca probabilități ca datele de intrare să fi fost preluate din eșantionul de antrenament și nu generate de generator Funcțiile de cost pentru ambele rețele sunt date foarte simplu: D cost = -tf reduce mean(tf log(x data score) + tf log( - x gen score)) G cost = tf reduce mean(tf log( - x gen score)) Optimizatorii din TensorFlow rezolvă problema minimizării în mod implicit, așa că luăm D cost cu semnul minus și G cost cu semnul plus Să setăm optimizatori: optimizator = tf train GradientDescentOptimizer(learning rate) D optimizer = optimizer minimize(D cost, var list=disc weights valuesQ) G optimizer = optimizer minimize(G cost, var list=gen weights values()) Este important de menționat că atunci când optimizăm discriminatorul, nu trebuie să actualizăm greutățile generatorului și invers, așa că în coborârea în gradient schimbăm doar greutățile corespunzătoare În ultimul fragment de cod, am folosit parametrul learning rate, așa că acum este timpul să setăm toți parametrii de învățare: batch size = actualizări = learning rate = , prior mu = - , prior std = , noise range = Mărimea lotului în timpul antrenamentului nu afectează foarte mult rezultatul final, dar merită totuși să-l setați Pentru a demonstra eficacitatea GAN, am decis să generăm o distribuție normală A/* (- , ) din zgomotul uniform liniar pe intervalul [- ], pe care am scris-o în parametrii de mai sus Și, din moment ce vorbim despre distribuții, să declarăm funcții de ajutor: def sample z(size=batch size): return ex random uniform(-noise range, noise range, size=[size, ]) def sample x(size=batch size, mu=prior mu, std=prior std): returnează np random normal(mu, std, size=[size, ]) Capitolul Ei bine, venim la antrenament Creați o sesiune TensorFlow și începeți: init = tf initialize global variables() sess = tf Session() sess run(init) pentru eu în gamă (actualizări): z batch = sample z() x batch = sample x() sess run(D optimizer, feed dict={z p: z batch, x d: x batch}) z batch = sample z() sess run(G optimizer, feed dict={z p: z batch}) Ca rezultat al antrenării unui astfel de GAN, puteți vedea rapid cum generatorul începe să cadă în distribuția anterioară Rezultatele sunt prezentate în fig : zona umplută pe grafice este histograma probelor din distribuția normală reală, curba neagră este densitatea distribuției (de asemenea empirică) pe care o generează generatorul în prezent, iar curba gri este predicția discriminatorului: valoarea curba gri arată ce probabilitate atribuie discriminatorul în acest moment ca datele să fie reale Pe fig Figura arată că acest exemplu simplu de GAN se comportă corect: • înainte de începerea antrenamentului, atât generatorul cât și discriminatorul generează ceva aleatoriu și nu au legătură între ele în niciun fel; • după trei iterații, generatorul este încă slab antrenat, iar discriminatorul său încă "câștigă": de exemplu, vârful generatorului din stânga mediei corespunde exact cu "scăderea" din graficul probabilității prezise de discriminator; • și după o sută de iterații, generatorul se potrivește deja destul de precis cu datele, iar discriminatorul nu are ce face: în zona în care densitatea datelor și generatorul este mare, ieșirea discriminatorului este aproape exact , , adică , admite înfrângerea (dar în stânga și în dreapta, aparent, densitatea generatorului scade mai repede decât chiar și distribuția normală a datelor reale, deci discriminatorul este sigur că datele sunt reale) Și deși este imposibil să repeți exact distribuția normală, este clar că această problemă poate fi de fapt rezolvată prin creșterea puterii de expresie a rețelei generatoare (și a discriminatorului, de asemenea - nu uitați că discriminatorul trebuie să rămână mai puternic) Înainte de a trece la modele mai complexe, să discutăm despre funcțiile de cost În primele etape ale antrenării modelelor adverse, discriminatorul învață rapid să distingă exemplele din eșantionul de antrenament de cele generate de generator Prin urmare, funcția de cost al generatorului log(l - D(xg')') "saturează" și începe să ia valori aproape de zero, ceea ce încetinește foarte mult actualizarea greutăților generatorului în timpul antrenamentului Prin urmare, în schimb, ele minimizează funcția - log (D (xg)), care, evident, are extreme în aceleași puncte Exemplu practic și truc cu sigmoid logistic Orez Rezultatul GAN Dar acesta nu este singurul truc care merită făcut cu funcțiile de pierdere Funcția de pierdere logistică are și unele particularități La calcularea acesteia, funcția de activare sigmoidală a(x) = i+exp(-x) se aplică la ieșirile ultimului strat al discriminatorului, de exemplu, pentru valoarea maximă de tip floatl Prin urmare, TensorFlow folosește un truc suplimentar simplu pentru a calcula funcția de pierdere logistică Deoarece răspunsul corect pentru exemplele din date este , iar pentru exemplele generate de generator este , forma standard a funcției de pierdere logistică se descompune în suma a doi logaritmi, - log(D(xd)) - log(l - D(xg)) Funcția de activare a ultimului strat este sigmoidul logistic, deci această expresie poate fi rescrisă ca: - log^^logitSjdata)) l°g(l - ^(^logitSjgen))' unde (r)iogits sunt valorile stratului de ieșire înainte ca funcția de activare să fie aplicată Să luăm în considerare fiecare dintre termeni separat (omițând indicele la x pentru simplitate în fiecare caz): -log("(")) = -log( + exp( d) = log( + exp(-x)) = A A / + exp(x)\ = log C -gg = bg -= log ( + exp (x)) - x, \ exp (w)/ \ exp (w) ) adică log ( + exp (-x)) = log ( + exp (x)) - x Capitolul Evident, dacă pentru valorile pozitive ale lui x evaluăm funcția din partea stângă a identității, iar pentru valorile negative din partea dreaptă, atunci problema de depășire va dispărea Dar este posibil să scriem aceste două expresii în aceeași formă, astfel încât exponentul să fie întotdeauna un număr negativ? Se dovedește că poți! Și iată cum arată: max(x, ) - x + log(l + exp(-|x|)) Atunci, dacă x este pozitiv, atunci max(x, ) se anulează cu x și - |x| este egal cu -x, iar partea stângă a identității rămâne, iar dacă x este negativ, atunci max(x, ) = , - |x| = x și avem partea dreaptă a identității Rămâne doar să rețineți că check(n, ) este doar funcția noastră preferată de activare ReLU, iar versiunea finală a acestei părți a sumei arată astfel în TensorFiow: tf nn relu(x) - x + tf log( + tf exp(-tf abs(x))) Totul este similar cu al doilea termen: - log ( - a (x)) = - log ( - -= - log ( exP( A = y + exp(-x) J \ + exp(-x) J / +exp(-x)\ , \u d ° H exp (-l) ; \u d M + exp (l)), iar pe de alta parte: / + exp(-x)\ , / hh g ( exp(-x) ) = g ( + Ѳxp(-x)) + de unde este ușor să obțineți o formă similară: max(x, ) + log(l + exp(-|x|)) Având în vedere cele de mai sus, rămâne să modificăm destul de mult codul și anume, mai întâi să schimbăm funcția discriminator(x): def discriminator(x): d hl = tf nn tanh(tf add( tf matmul(x, disc weights['wl']), disc weights['bl'])) d h = tf nn tanh(tf add( tf matmul(d hl, disc weights['w ']), disc weights['b '])) logits = tf add(tf matmul(d h , disc weights['w ']), disc weights['b ']) returnează logits Și apoi redefiniți funcțiile de cost: D plus cost = tf reduce mean(tf nn relu(x data score) - x data score + tf log( + tf exp(-tf abs(x data score)))) Arhitecturi bazate pe GAN D minus cost = tf reduce mean(tf nn relu(x gen score) + tf log( + tf exp(-tf abs(x gen score)))) G cost = tf reduce mean(tf nn relu(x gen score) - x gen score + tf log( + tf exp(-tf abs(x gen score)))) D cost = D plus cost + D minus cost Acum ne putem asigura că totul funcționează din nou (verificați-l singur!) și este timpul să treceți la sarcini mai interesante În secțiunea următoare, vom oferi o scurtă prezentare generală a aplicațiilor moderne interesante ale GAN, vom arăta structura unui autoencoder adversar și apoi vom vedea cum funcționează cu un exemplu practic Arhitecturi bazate pe GAN A construi pe dușmănie înseamnă a construi pe un vulcan Explozie - și din nou regatul morții și al distrugerii Epistola Patriarhului Tihon către copiii Bisericii Ortodoxe Ruse, Înainte de a trece la arhitecturile moderne de generare a rețelelor adverse, să începem cu câteva observații În primul rând, în general, nu avem încă o înțelegere foarte bună a modului în care funcționează GAN-urile și de ce o fac atât de bine (și GAN'bi-urile sunt foarte bune!) O posibilă explicație [ ] este că problema de optimizare minimax discutată în Secțiunea nu optimizează distanța Kullback-Leibler KL(pjata||pgen), ci divergența Jensen-Shannon, care seamănă mai mult cu KL (pgen||Pdata) - Diferența dintre ele este ilustrată în fig , unde am eșantionat puncte din pc|ata ca un amestec de două distribuții normale și din pgen ca dintr-o distribuție care minimizează una sau alta distanță Kullback-Leibler: • KL(pjata||pgen) este minimizat acolo unde toate valorile pjata mari au probabilități rezonabile în distribuția pgen; aceasta înseamnă că ecnnpdata are multe vârfuri pronunțate (așa cum se întâmplă aproape întotdeauna în problemele complexe de învățare automată), pgen va încerca să le "acopere" pe toate, "untând" rezultatul (vezi Fig , a); • KL(pgen I IPdata) este minimizat acolo unde toate valorile pgen mari au probabilități rezonabile în funcție de distribuția pjata, adică într-un astfel de caz multimodal, pgen va "alege" pur și simplu unul dintre vârfurile Pdata (vezi Figura b ) Este clar că din punctul de vedere al generării de noi exemple, a doua opțiune este mult mai bună decât prima: poate că nu vom învăța cum să generăm toate rasele de pisici din lume, dar atunci nu vom genera "pisici medii" care nu au nicio legătură cu realitatea (ca între vârfurile lui p din Fig ) Capitolul Orez Două distanțe KL diferite între pgen (curba neagră) și pdata (zona gri): a - minimizați KL(pdata||pgen); b - minimizați KL(pgen||pdata) Dar nu, se dovedește că este posibil să se construiască un GAN cu alte funcții de eroare, de exemplu, în [ ], este construită construcția așa-numitelor f-GAN, care poate optimiza orice funcție din clasa / -divergențele, care includ divergența Kullback-Leibler, și Jensen-Shannon și multe altele Totuși, GAN funcționează bine, iar mostrele din acesta sunt destul de clare În al doilea rând, această discuție urmează parțial una dintre principalele probleme ale GAN în acest moment: colapsul modurilor de distribuție (mode collapse) Este bine ilustrat în Fig b: distribuția optimă q selectează un mod (maxim local) al distribuției p, iar al doilea este complet descoperit și, ca rezultat, generăm o anumită rasă de foci, și nu oricare posibilă O soluție completă la această problemă urmează încă să vină În al treilea rând, am menționat deja că GAN'bi este greu de antrenat, iar modelele sunt fragile, așa că merită să țineți cont de o serie de sfaturi practice [ , ]: • etichete de clasă: dacă datele sunt împărțite în k clase (de exemplu, pisici și câini), puteți defini discriminatorul ca clasificator pentru k + clasa: k clase care se disting în date și o altă clasă corespunzătoare eșantioanelor de la generator; practica arată că eșantioanele devin mult mai bune dacă etichetele de clasă sunt furnizate la intrare, chiar dacă le dăm doar discriminatorului [ ]; • Discriminarea mini-loturi: una dintre euristicile care ajută la rezolvarea problemei colapsării și a face generatorul mai variat este de a alimenta eșantioanele discriminatoare în întregul mini-lot și de a calcula o metrică de similaritate între mostrele din mini-lot o intrare auxiliară pentru discriminator; acest lucru duce adesea la îmbunătățiri semnificative în generație [ ]; Arhitecturi bazate pe GAN • netezirea etichetei (labei smoothing) pentru discriminator: estimează raportul distribuțiilor în proiectarea GAN, iar rețelelor neuronale le place adesea să fie prea sigure, pentru a da valori prea apropiate de zero sau unu; pentru a remedia acest lucru, valoarea țintă a discriminatorului pentru punctele din date este adesea schimbată de la la, de exemplu, , și lăsată așa cum este pe punctele generate; cu alte cuvinte, antrenăm discriminatorul astfel încât, în mod ideal, pe punctele de date, să fie % sigur că acestea sunt puncte de date, și nu %; (vezi și [ ], unde un truc similar este util pentru rețelele convoluționale și recunoașterea imaginilor); • normalizare virtuală prin mini-lot: normalizarea obișnuită este foarte utilă și aș dori foarte mult să o adaug la generator, dar ca rezultat, mostrele generate într-un mini-lot se dovedesc a fi foarte corelate (au normă comună de lot) -parametrii stratului) ; pentru a evita acest lucru, puteți utiliza același "lot de referință" virtual selectat din datele pentru fiecare exemplu din generator în loc să calculați separat media și covarianțele; • dezechilibru între generatorul G și discriminatorul D: intuitiv poate părea că trebuie să mențineți un fel de "echilibru" între G și D, nepermițând nimănui să treacă înainte, dar de fapt, așa cum am spus deja, eroarea funcția pentru G are mult mai mult sens când D este optim, adică este mai bine dacă D este "mai puternic"; în practică, aceasta înseamnă că D poate fi o rețea mai complexă, mai expresivă În general, teoria rețelelor generative contradictorii este acum una dintre frontierele învățării în rețea profundă; suntem siguri că ne așteptăm la multe rezultate noi interesante în această direcție Și acum să vedem ce constructe GAN'ob sunt folosite în practică și ce se poate face cu ele Primele aplicații izbitoare ale rețelelor generative adversare au fost asociate cu arhitectura DCGAN (Deep Convolutional Generative Adversarial Networks) [ ] Acesta este un GAN obișnuit în care generatorul și discriminatorul sunt rețele convoluționale profunde, ceea ce este logic pentru procesarea imaginilor Cu toate acestea, există câteva caracteristici importante pe care ar trebui să le țineți cont dacă doriți să aplicați GAN anumitor imagini: • în loc de subeșantionare, se folosesc niveluri convoluționale suplimentare, la care participă convoluțiile cu goluri (convoluții cu pasi, ca în Fig ); această idee este cunoscută ca rețele "complet convoluționale" (toate rețelele convoluționale) [ ]; • straturile ascunse complet conectate nu sunt, de asemenea, folosite, ca în [ ]; de fapt, din rețeaua convoluțională rămân doar circumvoluțiile în sine; • dar normalizarea prin mini-lot este folosită atât în generator, cât și în discriminator; • ReLU este utilizat peste tot în generator, iar ReLU leaky (Leaky ReLU, vezi Secțiunea ) în discriminator Capitolul Rezultatele DCGAN chiar și în articolul original sunt foarte interesante Modelul a fost instruit, în special, pe setul de date al interioarelor dormitoarelor LSUN (Large-Scale Scene Understanding Challenge) [ ] și pe setul de date a trei milioane de fețe umane colectate de autori Rezultatul nu este doar un generator care produce interioare inteligente și chipuri umane, ci și spațiul factorilor latenți are proprietăți foarte interesante De exemplu, se dovedește că în spațiul factorilor latenți, aproximativ aceeași aritmetică vectorială pe care am văzut-o în reprezentările de cuvinte distribuite din Secțiunea funcționează uneori: puteți, de exemplu, să scădeți fotografiile bărbaților fără ochelari din fotografiile bărbaților cu ochelari , adăugați femei fără ochelari și aduceți femeile cu ochelari! Iar "plimbările" prin spațiul factorilor ascunși arată că, pe măsură ce ne mutăm de la un interior la altul, modelul generează tot timpul imagini destul de rezonabile ale interioarelor, nu încercând să mediteze și să mânjească fotografiile, ci mișcându-se într-o secvență "logică" Există multe exemple strălucitoare și amuzante de utilizare a DCGAN: de exemplu, în [ ], acestea generează grafică în pixeli pentru jocuri pe opt biți Și în [ ], arhitectura asemănătoare DCGAN dă naștere unor "picturi" în stilul expresionismului abstract; experimentele pe oameni au arătat că imaginile generate de GAN'om sunt destul de la nivel uman în categorii precum "noutate", "complexitate", "intenționalitate" (intenționalitate) și pur și simplu răspunzând la întrebarea "a desenat o persoană asta" "(totuși, nu este necesar să luăm munca [ ] prea în serios încă, aproximativ douăzeci de persoane au fost intervievate acolo) Au apărut deja sarcini practic importante pe care astfel de arhitecturi le rezolvă cel mai bine De exemplu, în [ ], problema creșterii rezoluției unei imagini (super-rezoluție a imaginii) este rezolvată: putem crește în mod rezonabil rezoluția unei fotografii, putem adăuga detalii astfel încât acestea să pară plauzibile ochiului uman (este clar că nu vorbim despre restaurarea detaliilor "reale", pur și simplu nu există astfel de informații într-o fotografie de calitate scăzută) Arhitectura SRGAN din [ ] este foarte asemănătoare cu DCGAN, iar rezultatele sunt foarte bune Similar cu aceasta este problema restaurării imaginilor RMN în medicină (reconstrucție RMN), care este rezolvată folosind GAN în [ ] Următoarea extensie foarte naturală a arhitecturii rețelelor adversare este GAN condițional (GAN condiționat) [ ] Acest model folosește informații suplimentare y, care sunt adesea disponibile împreună cu x exemple; de exemplu, ar putea fi o etichetă de clasă de imagine (pisică sau câine, număr de cifre MNIST și așa mai departe) Alimentam y împreună cu un vector aleatoriu la intrarea generatorului și, de asemenea, vom alimenta același y la intrarea discriminatorului pentru discriminare (vezi Fig , a); ca urmare, generatorul încearcă să construiască un model de distribuție condiționată pgen(x I y) = G(z, y), iar discriminatorul D(x | y) construiește distribuția de probabilitate ca intrarea să fie "reală", tot sub starea y Ca și în secțiunea , nu vom prezenta aici imagini frumoase generate de DCGAN - vezi link-urile, dar în carte vom vorbi mai mult despre arhitecturi Arhitecturi bazate pe GAN Eșantionarea din date Exemplu de x publicat Date х Temporizator generat G(z, c) Zgomot Z distribuția zgomotului p(z) Orez Arhitecturi de modificare a GAN: a - GAN condiționat [ ]; b - InfoGAN [ ] În articolul original [ ], aplicațiile GAN-urilor condiționate nu erau foarte impresionante, dar au început să apară rapid lucrări noi foarte interesante De exemplu, în [ ], fotografiile fețelor umane sunt folosite ca obiecte, iar vârsta persoanei din fotografie este folosită ca informații suplimentare Un astfel de GAN condiționat este capabil să genereze fețe de o anumită vârstă; Mai mult decât atât, dintr-o fotografie a unei fețe, o puteți afișa mai întâi în spațiul de caracteristici, apoi schimbați semnul vârstei și generați o nouă fotografie, "îmbătrânind" sau "întinerind" persoana din fotografie! Acest lucru necesită o arhitectură ceva mai complexă, dar nu vom intra în detalii acum Ideea de a schimba fețele umane a primit o altă dezvoltare în [ ], în care condițiile au o semnificație fizică - "păr blond", "chel", "ochelari", iar modelul are un codificator special care recunoaște aceste caracteristici Se dovedește că teoretic este posibil să recunoașteți trăsăturile într-o fotografie, să înlocuiți artificial unele dintre ele ("vopsiți-vă părul", "înlăturați-vă chel", "puneți ochelari") și apoi să generați o fotografie cu alte caracteristici Desigur, deși acest lucru funcționează departe de a fi perfect și nu trăim încă într-o distopie cyberpunk, dar progresul nu stă pe loc O altă modificare interesantă a GAN-urilor condiționate, InfoGAN [ ], adaugă restricții suplimentare teoretice informaționale problemei obișnuite de optimizare rezolvată în GAN-uri Sarcina este de a antrena pe stratul ascuns nu doar o reprezentare "bună" din care să probezi, ci o reprezentare "dezlegată" (reprezentare dezlegată), în care trăsăturile individuale au o interpretare naturală De exemplu, aș dori ca caracteristicile unui GAN care generează o față umană să se potrivească cu culoarea ochilor, cu forma Desigur, nu le putem enumera pe toate, iar noi GAN'bi interesante apar literalmente în fiecare săptămână; vezi, de exemplu, lista de referințe din [ ] Capitolul nas și caracteristici naturale similare Autorii lui [ ] realizează acest lucru într-un mod simplu, dar conceptual: • împărțiți explicit vectorul zgomot în două părți, zgomot incompresibil "real" z și zgomot structurat, sau "cod" с = сі,С , • • • ,С£; • Să presupunem că distribuția codului este complet factorizabilă, p(c) = p(c )p(c ) -p(cl); acum generatorul depinde de ambele părți, G(z, c), iar această presupunere spune că caracteristicile din c sunt semnificative și independente; • dar in acelasi timp, generatorul nu este inca obligat sa ia in calcul c deloc; pentru a o forța, adăugăm la funcția de eroare maximizarea informațiilor reciproce f(c; G(z, c)) între codul c și ieșirea generatorului; aceasta înseamnă că generatorul va încerca să ia în considerare c cât mai mult posibil în ieșirea sa, să maximizeze influența lui c asupra G(z, c), adică, în esență, va încerca să facă posibilă restabilirea lui c din G(z, c) (vezi Fig , b) Ca urmare, structura modelului și învățarea nu devin mult mai complicate - de fapt, se adaugă un strat complet conectat, care calculează și maximizează estimarea inferioară / (c; G (z, c)) Dar reprezentările ascunse se dovedesc a fi cu adevărat "descurcate": de exemplu, caracteristicile corespunzătoare cifrei în sine, lățimea acesteia, unghiul de rotație etc sunt evidențiate pe MNIST O altă utilizare naturală a condițiilor într-un GAN condiționat este o indicație mai detaliată despre ce anume și cum să desenezi De exemplu, în [ , ] ei rezolvă o sarcină uimitoare: a genera o imagine fotorealistă dintr-o descriere text dată} În acest caz, textul este comprimat într-o reprezentare distribuită folosind un codificator recurent, iar apoi aceste caracteristici sunt utilizate ca o condiție în GAN În [ ] descrierea textului este completată cu indicații în coordonate unde ar trebui să fie anumite părți ale imaginii, iar în [ ] acestea lucrează direct din text În ambele lucrări, modelele sunt antrenate pe un set de fotografii cu păsări cu descrieri, astfel încât să puteți hrăni o descriere precum "O pasăre mică galbenă cu o coroană neagră și un cioc scurt și negru ascuțit" ca intrare, iar rezultatul va fi într-adevăr, să fie o "fotografie" care este destul de asemănătoare cu această descriere StackGAN este un bun exemplu de arhitectură modernă de rețea neuronală destul de complexă, bazată în principal pe ideea rețelelor adverse, dar în același timp "absorbind" multe modele diferite: • mai întâi, textul este convertit într-o reprezentare vectorială folosind un codificator recurent; • la caracteristicile obţinute se adaugă componente aleatoare suplimentare, iar rezultatul serveşte ca intrare pentru GAN; • dar există două GAN-uri în model deodată (de aceea se numește StackGAN): mai întâi, din descrierea textului se generează o schiță mică de x pixeli, iar apoi se obține o imagine de x din acesta, adică, de fapt, al doilea nivel rezolvă problema creșterii rezoluției Arhitecturi bazate pe GAN Problema colapsului modului de distribuție este tratată cu succes de [ ], care propune o modificare a algoritmului de învățare pentru GAN convențional Ideea este de a "privi în viitor" și de a transforma antrenamentul generatorului în GAN într-un fel de proces recurent, prevăzând reacția discriminatorului la pregătirea generatorului chiar în timpul acestei instruiri De obicei, generatorul optimizează V(D,G) = unde D este discriminatorul de curent, ]j sunt parametrii săi, iar q sunt parametrii generatorului Și știm că vom optimiza D prin coborâre în gradient, mai precis urcând funcția V: = lim ѳ^\ unde ^+ ) = Ideea cheie a [ ] este să privim întreaga expresie ca o singură formulă în q și să observăm că astfel putem optimiza direct V în raport cu variabilele q Desigur, literalmente ^, rezultatul unui proces iterativ infinit, nu poate fi folosit, dar este foarte posibil să privim în viitor pentru mai multe iterații și, să zicem, să o luăm Rezultă că generatorul concurează nu cu discriminatorul de curent, ci cu cel idealizat, care deja a învățat puțin să recunoască generatorul de curent; prin urmare, generatorul trebuie să înșele un adversar mult mai viclean decât într-un GAN convențional În special, aceasta înseamnă că, dacă generatorul dorește să aleagă tot timpul un mod din distribuția multimodală, un astfel de discriminator idealizat poate rapid, în aceleași cinci iterații, să învețe să penalizeze acest mod, ceea ce va descuraja generatorul să învețe în acest mod directie unimodala in avans Dezavantajul acestei idei este complexitatea de calcul ridicată: funcția de eroare cu cinci iterații încorporate de antrenare a discriminatorului devine mult mai complexă Ultima modificare importantă a designului de bază al generării rețelelor adverse, pe care o vom lua în considerare în acest capitol, este autoencoderii adversari (AAE) [ ] Structura AAE este prezentată în fig Ideea principală aici este să transformăm autoencoderul obișnuit despre care am vorbit în secțiunea într-un model generativ După cum am discutat în Secțiunea , codificatorul automat poate dezvălui reprezentarea ascunsă într-un obiect "real", dar acest lucru nu ajută direct generarea: nu există de unde să obțineți combinațiile potrivite de factori ascunși și, dacă sunt generați aleatoriu, nimic sensibil nu va rezulta din asta Un autoencoder rival încearcă să rezolve doar ultima problemă După cum se arată în fig , discriminatorul din AAE încearcă să distingă distribuția factorului latent obținută de codificator de o distribuție dată, fixă, cum ar fi distribuția normală standard A/*( ) pentru fiecare factor latent Capitolul Orez Arhitectura autoencoderului adversar [ ] În consecință, ar trebui să se dovedească că distribuția caracteristicilor latente corespunzătoare distribuției caracteristicilor de intrare nu se distinge de o distribuție predeterminată ceea ce înseamnă că putem pur și simplu să luăm un nou set de caracteristici latente din această distribuție cunoscută, să o extindem cu partea de decodare a autoencoderului și obțineți o nouă mostră a obiectului dorit Un astfel de design poate fi modificat într-un AAE condiționat fără probleme O condiție discretă, cum ar fi o etichetă de clasă, va arăta simplă în discriminator: va încerca să distingă fiecare clasă de propria distribuție a factorilor latenți Ca rezultat, AAE poate pur și simplu "împrăștia" diferite clase de obiecte în diferite părți ale spațiului factorilor latent (pe cât posibil, desigur; uneori obiectele arată într-adevăr ca mai multe clase simultan și nu este nimic de făcut în acest sens) Să aruncăm o privire mai atentă la un exemplu de autoencoder adversar care învață să genereze cifre scrise de mână din setul de date MNIST Acesta va fi poate cel mai complex exemplu de cod din această carte, dar vă va arăta toate părțile unei rețele generative adversare Mai întâi, importăm obiectele de care avem nevoie, încărcăm MNIST și definim funcțiile de ajutor: import numpy ca np, tensorflow ca tf din tensorflow examples tutortals mnist import input data mnist = input data read data sets("MNIST data/", one hot=True) def batch gen(date, batch n): inds = range(data shape[ ]) np random shuffle(inds) pentru i în interval (data shape[ ] / batch n): ii = inds[i*batch n:(i+l)*batch n] date de randament[ii, :] def initializer(dimensiune): returnează tf random normal initializer(medie= , , stddev=np sqrt(l /size), seed=None, dtype=tf float ) Arhitecturi bazate pe GAN def strat liniar(tensor, mărime intrare, mărime exterioară, init fn=el inițializator,): W = tf get variable('w', shape=[input size, out size], initializer=init fn(input size)) b = tf get variable('b', shape=[out size], initializer=tf constant initializer( )) return tf add(tf matmul(tensor, W), b) def sample prior(loc= , scale=l , size=( , )): returnează np tanh(np random normal(loc=loc, scale=scale, size=size)) Aici batch gen scoate mini-loturi de date secvențial în ordine aleatorie, he initializer setează inițializarea greutăților pentru neuronii ReLU conform Xe (vezi Secțiunea ), Ineag lauer este o funcție auxiliară care setează un strat liniar standard cu o matrice de greutate inițializată de init fn și un vector de membri liberi, inițializat de constante și sample prior dă vectori de numere aleatoare distribuite normal, trecuți printr-o tangentă hiperbolică; această funcție este utilă pentru generarea de mini-loturi de vectori aleatori pentru generator Deoarece acesta este încă cel mai complex exemplu de cod din carte, îl vom formata așa cum sunt de obicei concepute în practică modelele de rețele neuronale profunde: sub forma unei clase, ale cărei câmpuri stabilesc parametrii și variabilele modelului, metodele face antrenamentul propriu-zis, iar când obiectul clasei este inițializat, un model Să începem cu inițializarea Următorul inițializator mare construiește întreaga rețea, definește toate funcțiile de eroare și creează optimizatori pentru antrenament Pentru a scurta metoda, folosim metodele seif encoder, seif decoder și seif -discriminator, care nu au fost încă definite, care vor stabili structura rețelelor în sine Și mai ales ne vor interesa funcțiile de eroare; Le vom comenta pe măsură ce devin disponibile clasa AAE(obiect): def init (seif, batch size= , input space= * , latent space= , p= , middle layers=None, activation fn=tf nn tanh, learning rate= , I lambda = , initializer fn=he initializer): seif batch size = dimensiunea lot seif input space = spațiu input seif latent space = latent space sine p = p seif middle layers = [ , ] seif activation fn = activation fn seif learning rate = rata de învățare seif initializer fn = initializer fn tf reset default graph() Capitolul self input x = tf placeholder(tf float , [None, input space]) seif z tensor = tf placeholder(tf float , [None, latent space]) cu tf variable scope("encoder"): seif encoder() self encoded = seif encoder layers[- ] cu tf variable scope("decodor"): seif decoder layers = seif decoder(self encoded) self decoded = seif decoder layers[- ] tf get variable scope() reuse variables() seif generator layers = seif decoder(self z tensor) seif generated = tf nn sigmoid( seif generator layers[-l], name="generated") dimensiuni = [ , , ] cu tf variable scope("discriminator"): seif disc layers neg = seif discriminator(self encoded, sizes) seif disc neg = seif disc layers neg[- ] tf get variable scope() reuse variables() seif disc layers pos = seif discriminator(self z tensor, sizes) seif disc pos = seif disc layers pos[- ] În acest moment, avem ieșirile tuturor rețelelor pregătite Eroarea disc loss discriminator va fi suma erorilor pozitive și negative, cu trucul descris în Secțiunea Am discutat deja despre eroarea codificatorului enc loss în aceeași secțiune Și noua pentru noi va fi eroarea ae loss autoencoder, care arată cât de cu succes restaurează decodorul intrarea În plus, vom adăuga regulatorul I loss L la toate ponderile rețelei seif pos loss = tf nn relu(self disc pos) - seif disc pos + tf log( + tf exp(-tf abs(self disc pos))) seif neg loss = tf nn relu(self disc neg) + tf log( + tf exp(-tf abs(self disc neg))) seif disc loss = tf reduce mean(tf add(self pos loss, seif neg loss)) seif enc loss = tf reduce mean (tf subtract(self neg loss, seif disc neg)) batch logloss = tf reduce sum(tf nn sigmoid cross entropy with logits( logits=self decoded, labels=self input x), ) self ae loss = tf reduce mean(batch logloss) disc ws = tf get collection(tf GraphKeys GLOBAL \/ARIABLES, scope='discriminator') ae ws = tf get collection(tf GraphKeys GLOBAL \/ARIABLES, scope='encoder') + tf get collection(tf GraphKeys GLOBAL VARIABLES, scope='decoder') self l loss = tf multiply(tf reduce sum([tf nn l loss(ws) for ws in ae ws]), I lambda) Acum eroarea generatorului gen loss este suma enc loss, ae loss și I loss și creăm doi optimizatori, unul pentru gen loss și unul pentru disc loss Restul inițializatorului constă dintr-o pornire standard a sesiunii TensorFlow Arhitecturi bazate pe GAN seif gen loss = tf add(tf add(self enc loss, seif ae loss), seif I loss) cu tf variabila scope('optimizatori'): seif train discriminator = tf train RMSPropOptimizer(seif learning rate) minimize(self disc loss, var list=disc ws) seif train generator = tf train RMSPropOptimizer(seif learning rate) minimize(self gen loss, var list=ae ws) seif sess = tf Session() init = tf global variables initializer() seif sess run(init) Să definim acum structura celor trei componente ale AAE def encoder(self): dimensiuni = [seif input space] + seif middle layers + [seif latent space] seif encoder layers = [seif input x] pentru i în interval (len (dimensiuni) - ): cu tf variable scope('layer-%s' % i): linear = linear layer(self encoder layers[- ], sizes[i], sizes[i+l]) seif encoder layers append(self activation fn(linear) )) def decoder(self, tensor): dimensiuni = [seif latent space] + seif middle layers[::- ] decoder layers = [tensor] pentru i în interval (len (dimensiuni) - ): cu tf variable scope('layer-%s' % i): linear = strat liniar(straturi decodor[-l], dimensiuni[i], dimensiuni[i+l]) straturi decodor append(self activation fn(liniar)) cu tf variable scope('output-layer'): linear = linear layer(decoder straturi[-l], dimensiuni[-l], seif input space) decoder layers append(liniar) returnează straturile decodorului def discriminator(self, tensor, sizes): dimensiuni = [seif latent space] + dimensiuni + [ ] disc layers = [tensor] pentru i în interval (len (dimensiuni) - ): cu tf variable scope('layer-%s' % i): linear = linear layer(disc straturi[-l], sizes[i], sizes[i+l]) disc layers append(self activation fn(linear)) cu tf variable scope('class-layer'): linear = linear layer(disc straturi[-l], dimensiuni[-l], seif input space) disc straturi append(liniar) returnează disc straturi Și puteți crea o metodă de învățare Vă rugăm să rețineți că care dintre cele două optimizatoare să ruleze este determinată de valorile de eroare curente: atâta timp cât eroarea codificatorului este mai mare decât valoarea specificată, reantrenăm generatorul, iar când acesta devine mai mic, revenim la discriminator Capitolul ■ ■"■■■ g E p o t> s, / ІІІОА С np log(self p): gloss, = sess run([self enc loss, seif train generator], feed dict={self input x: batch x}) altceva: batch z = sample prior( scale= , size=(len(batch x), seif latent space)) gloss, = sess run([self enc loss, seif train discriminator], feed dict={self input x: batch x, seif z tensor: batch z} ) dacă i % == : gtd = aae sess run(aae generated, feed dict={aae z tensor: sample prior(size=( , ))}) plot mnist(gtd reshape([ , , ]), [ , ]) Și acum poți începe antrenamentul și apoi vezi ce se întâmplă aae = AAE() aae train() Rezultatele eșantionării la mai multe etape diferite de antrenament sunt prezentate în Fig , ; după cum puteți vedea, chiar și cu o structură atât de simplă a codificatorului, decodorului și discriminatorului, rapid, după - de epoci de antrenament, începem să obținem mostre destul de rezonabile Dezvoltarea ulterioară a autoencoderelor adverse este în curs de desfășurare chiar acum De exemplu, în [ ], sunt propuse modele de AAE de reducere a zgomotului (într-un proiect convențional, nu este complet clar unde și cum să se introducă corect zgomotul, pot exista opțiuni) Iar lucrarea [ ] dezvoltă ideea lui PixelCNN, despre care noi Arhitecturi bazate pe GAN discutat în secțiunea În PixelCNN, era deja posibilă construirea unei distribuții condiționate având în vedere o anumită clasă (de exemplu, o clasă de la ImageNet) și generarea unei imagini "pe un anumit subiect" pixel cu pixel Iar în modelul PixelGAN [ ], la PixelCNN i se adaugă un discriminator, care, ca într-un autoencoder adversar convențional, aduce distribuția caracteristicilor latente la unul dat, ceea ce vă permite să separați stilul unei imagini de conținutul acesteia ( de exemplu, clasa unei cifre în MNIST din scriere de mână) și face generarea condiționată mai bună Și încă un exemplu, în care pur și simplu nu ne putem nega pe noi înșine În [ , ], autorii acestei cărți au folosit un autoencoder adversar pentru a genera molecule care ar putea fi candidați buni la medicamente În chimie, biologie moleculară și produse farmaceutice, structurile complexe (cum ar fi moleculele complexe) sunt uneori reprezentate ca așa-numitele "amprente", de fapt, pur și simplu factori ascunși sub formă de vectori de biți sau numere Prin urmare, arhitectura AAE condiționată pentru această problemă a arătat astfel: amprentele moleculelor și concentrațiile lor sunt date ca intrare, iar discriminatorul, ca de obicei, a încercat să distingă distribuția normală standard de distribuția caracteristicilor pe stratul ascuns Dar, în același timp, stratul ascuns a fost împărțit artificial în două părți: "semne obișnuite" și un semn special, care ar trebui să arate cât de eficientă este această moleculă împotriva unei boli condiționate Astfel, pentru generație, puteți lua distribuția normală obișnuită pe "trăsăturile obișnuite" și eficiența dorită (adică, cel mai probabil, mare) pe această caracteristică specială și, teoretic, ar trebui să se obțină o moleculă care să lupte eficient boala dorită Toate aceste studii sunt, de fapt, abia la început, dar primele rezultate sunt deja foarte promițătoare Am vorbit deja despre construcții care generează o imagine dintr-o descriere textuală Dar de ce aproape toate exemplele în care am generat ceva cu rețele adverse au vizat doar imagini? Unde sunt scriitorii și poeții de computer, de ce nu am vorbit despre GAN'ax în capitolul ? Aceasta este o direcție foarte interesantă pentru cercetările viitoare Ideea este că construcția rețelelor adverse este bine adaptată pentru a genera obiecte continue (de exemplu, vectori de numere, care sunt imagini în esență) Și odată cu generarea de obiecte discrete, apare o problemă: o mică schimbare în rețea nu duce la modificări, iar funcția de eroare GAN devine constantă pe bucăți, ceea ce nu permite rularea coborârii gradientului pe ea Trecerea la reprezentări distribuite ale cuvintelor nu va salva situația: o mică schimbare în spațiul scory ves-reprezentări ne va lăsa la fel de bine în vecinătatea aceluiași cuvânt Cum să extinzi rețelele generatoare de adversari la obiecte discrete? Aceasta rămâne o problemă deschisă interesantă Capitolul Invatare profunda cu întăriri sau Povestea uimitoare a modului în care campioana coreeană a reușit să învingă un set adânc într-un joc din cinci TL;DR În acest capitol, vom vorbi despre sarcina de a învăța, care este probabil cea mai asemănătoare omului, Învățarea prin întărire Noi: • să se familiarizeze cu motivația și scopul general al învățării prin întărire; • luați în considerare procesele de decizie Markov și învățarea TD; • înțelegeți unde sunt rețelele neuronale aici și analizați arhitectura DQN; • haideți să vorbim în detaliu despre una dintre cele mai izbitoare demonstrații recente ale inteligenței artificiale - victoria lui AlphaGo asupra lui Lee Sedol; • vom studia metodele de coborâre a gradientului prin strategii și aplicațiile acestora în robotică și alte domenii Consolidarea învățării Consolidarea învățării Winnie the Pooh nu s-a împotrivit întotdeauna un pic de răcoare, mai ales la ora unsprezece dimineața, pentru că la acea oră micul dejun se terminase de mult, iar cina nici nu se gândea să înceapă A A Miln Winnie the Pooh și all-all-all (tradus de B Zakhoder) Sarcinile de învățare automată despre care am vorbit până acum pot fi împărțite în două categorii principale: ) în sarcinile de învățare supervizată există un set de "răspunsuri corecte", și este necesară extinderea acestuia la întreg spațiul sau, mai exact, la acele exemple care pot fi întâlnite în viață, dar care nu au întâlnit încă în proba de instruire; această clasă include probleme de regresie și clasificare și asta este ceea ce facem în această carte tot timpul, fie că este vorba de clasificarea cifrelor scrise de mână pe setul de date MNIST sau de traducerea automată bazată pe texte paralele în diferite limbi; ) în sarcinile de învățare nesupravegheată, există doar un set de exemple fără informații suplimentare, iar sarcina este de a înțelege structura acesteia, de a evidenția caracteristicile care o descriu bine; am discutat în detaliu câteva dintre sarcinile învățării nesupravegheate în Partea a III-a, când am vorbit despre autoencodere și pre-antrenarea rețelelor neuronale și, în general, așa cum am văzut de multe ori, unul dintre principalele avantaje ale învățării profunde este tocmai capacitatea de a evidenția foarte abil trăsături complexe, de a descoperi structura internă complexă a obiectelor din jurul nostru Aceasta este o diviziune foarte clasică, o veți vedea în orice manual de învățare automată Dar așa învățăm? Așa funcționează învățarea în viața reală? Imaginați-vă, de exemplu, cum un copil mic învață să meargă Cum ar putea arăta în paradigmele de învățare supravegheată și nesupravegheată: ) antrenament cu un profesor - părinții care înțeleg deja cum merg oamenii, îi oferă copilului un set de date despre ce mușchi și în ce secvență trebuie să se strângă pentru a face un pas; setul ar trebui să fie suficient de complet pentru a acoperi toate sau aproape toate situațiile diferite în care un copil ar putea dori să facă un pas și, de asemenea, trebuie să conțină, de asemenea, exemple negative: cum va cădea exact dacă își încordează mușchii incorect; ei bine, sau, pentru a nu ajunge la o asemenea absurditate, părinții îi arată pur și simplu copilului câteva zeci de mii de fotografii, care înfățișează diferite faze ale diferiților pași, iar apoi rețeaua sa magică adâncă scoate semne din ele și transmite informațiile necesare copilului; Capitolul ) învățarea fără profesor - copilul pur și simplu urmărește cum merg tatăl și mama lui; și apoi, treptat, din sute de mii de imagini înregistrate în creier, se formează semnele necesare: dacă mușchiul gambei stâng este ușor tensionat așa, iar cel drept este așa, în același grup vor fi videoclipuri cu tata și mama, care merg înainte lin și cu încredere; ei bine, dacă o strecoară altfel, atunci, de multă vreme, mii de poze cu felul în care tata și mama cad stângaci, incapabili să facă un pas, sunt pregătite de mult Serios, exact ca în viața reală? După cum îmi amintesc acum, mama a venit în patul meu și a început să-mi arate cum să merg și cum să nu De fapt, nu știm întotdeauna setul de răspunsuri corecte De multe ori facem doar aceasta sau acea acțiune și obținem rezultatul Când un copil învață să meargă, mai întâi face ceva de la distanță ca adevărul, pe care i-l spune instinctul și obține un rezultat, cel mai probabil negativ la început Apoi își schimbă puțin comportamentul, poate destul de întâmplător, și se uită să vadă dacă funcția obiectivă a crescut, ca să spunem așa; iar când ceva începe să iasă, copilul își amintește cum s-a întâmplat și apoi repetă același lucru, încercând să dezvolte succesul în continuare De aici și ideea principală a învățării prin întărire (reinforcement leaming) În această enunțare a problemei, agentul interacționează cu mediul prin luarea de acțiuni; mediul îl încurajează pentru aceste acțiuni, iar agentul continuă să le ia, încercând să-și maximizeze "recompensa" pentru aceasta; răsplata sa vine și din mediul înconjurător Istoria învățării prin întărire poate fi începută în siguranță din lucrările lui Pavlov privind reflexele condiționate și necondiționate, deși abordările psihologice erau cunoscute mai devreme, de exemplu, în lucrările lui Alexander Bain la mijlocul secolului al XIX-lea [ ] Ideea lui principală a fost că învățăm prin încercare și eroare: atunci când o mișcare spontană (adică, în esență, aleatorie) coincide cu o stare de plăcere, "forța de reținere a spiritului" stabilește o asociere între ele Aceeași linie a fost continuată de teoriile lui Lloyd Morgan în psihologie și Edward Lee Thorndike în scrierile sale despre inteligența animalelor [ ]: o acțiune benefică care provoacă plăcere este fixată și întărește legătura dintre situație și reacție, în timp ce un acțiunea dăunătoare care provoacă neplăcere slăbește legătura și dispare Cu toate acestea, relația dintre instincte și formarea corectă pe tot parcursul vieții este o problemă foarte delicată; nu ne vom opri asupra ei în detaliu, dar știința nu a spus încă ultimul cuvânt aici Această poveste se bazează pe un eseu al lui Valentin Malykh [ ] Ivan Petrovici Pavlov ( - ) - om de știință rus, primul laureat al Premiului Nobel rus, creatorul real al științei activității nervoase superioare Lucrarea lui Pavlov este oarecum asemănătoare cu modul în care inovațiile teoretice și practice converg în formarea rețelelor profunde: celebrele sale experimente cu suc gastric, care au o mare importanță teoretică și au devenit baza întregii fiziologie moderne, nu ar fi fost posibile fără tehnica virtuoză a vivisecției , cum se numea atunci Și din celelalte lucrări ale lui Pavlov ne vom lua libertatea de a recomanda două prelegeri cu titlul tentant "Despre minte în general, despre mintea rusească în special": spuse în , dar totuși extrem de actuale Consolidarea învățării Iar de la sosirea behavioriştilor, şi în special a lui B F Skinner, în psihologie, această idee a devenit un mainstream absolut şi incontestabil În general, aceasta este ideea de învățare prin întărire și a apărut și în învățarea automată cu mult timp în urmă Chiar și Turing, în eseurile sale despre inteligența artificială, a descris arhitectura sistemului "durere și plăcere", care ar trebui să controleze ce anume este stocat în memoria inteligenței artificiale [ ] Lucrările timpurii ale informaticienilor pe această temă sunt similare cu lucrările lui Pavlov și Skinner: de exemplu, în , Claude Shannon a demonstrat un labirint prin care a alergat un șoarece pe nume Tezeu, explorându-l prin încercare și eroare și memorându-i calea [ ] ] În disertația sa, Marvin Minsky [ ] a prezentat modele computaționale de învățare prin întărire și, de asemenea, a descris un computer analog construit pe elemente pe care le-a numit SNARC, un computer stocastic de învățare prin întărire, în esență analog cu un neuron Aceste elemente trebuiau să corespundă conexiunilor semantice în schimbare din creierul uman; rețineți că acesta nu este deloc același cu perceptronul Rosenblatt despre care am discutat în secțiunea , care este supravegheat în mod explicit Vorbind puțin mai formal, la fiecare pas agentul se poate afla într-o anumită stare s E S, unde S este mulțimea tuturor stărilor și alege o acțiune a E A din setul disponibil de acțiuni A După aceea, mediul îi spune agentului ce recompensă r (din cuvântul recompensă) a primit pentru aceasta și în ce stare s' s-a găsit ca urmare a acțiunilor sale Sarcina agentului este de a câștiga cât mai multă recompensă posibil: • fie în timpul alocat h (de la cuvântul orizont, "orizont"); o astfel de enunțare a problemei se numește model cu orizont finit, iar funcția obiectiv (venit, venit) poate fi reprezentată astfel: R \u d E [go + gі + G + + gd] \u d E Lt=o J unde rt este recompensa agentului la pasul t; Burres Frederic Skinner ( - ) a fost un psiholog, comportamentist și filozof social american Skinner a adus ideile de behaviorism la cea mai înaltă dezvoltare; el credea că întreaga varietate de comportament uman și animal este cumva redusă la principiile întăririi pozitive și negative Pentru a-și dezvolta ideile, a inventat faimoasa cutie Skinner, în care mouse-ul poate apăsa o pârghie specială și poate primi una sau alta recompensă pentru această acțiune În timpul celui de-al Doilea Război Mondial, Skinner a propus proiectarea unei rachete controlată de un porumbel special antrenat (proiectul era promițător, dar, din păcate, nu a fost niciodată finalizat), apoi a descoperit chiar și superstiții printre porumbei: dacă dai hrană unui porumbel la întâmplare ori, porumbelul va încerca foarte mult să observe coincidențele aleatorii a ceea ce a făcut în aceste momente cu primirea hranei și va încerca să repete aceste acțiuni aleatorii Capitolul • fie pentru tot timpul infinit care vine; în acest caz, desigur, nu va fi posibil să rezumați pur și simplu, dar este ușor de înțeles că în astfel de probleme este aproape întotdeauna mai profitabil să primiți o recompensă mai devreme decât mai târziu , prin urmare, de obicei, o anumită constantă (reducere) factor) este introdus în funcția obiectivă a unui model cu orizont infinit, prin care recompensa scade cu fiecare pas ulterior: R \u d Ego + Gі + *G + + ykrk + oo E"'' e=o Există și o a treia variantă, modelul de recompensă medie, când Ііпід^^ Еп] este optimizat, dar îl putem folosi practic nu vom Și orizontul finit poate fi ușor redus la infinit: este suficient să punem = și să presupunem că dincolo de orizont, după timpul h, toate recompensele rt, t > h, sunt egale cu zero, indiferent de acțiunile agentului Cea mai simplă problemă de învățare prin întărire este așa-numita problemă a bandiților multiarmate Formal, totul este exact la fel aici, dar | | = , adică starea agentului nu se schimbă Are doar un set fix de acțiuni A și capacitatea de a alege din acest set de acțiuni Acest model se numește problema bandiților cu mai multe brațe, deoarece este ușor de gândit astfel: agentul se află într-o cameră cu mai multe aparate de slot, fiecare mașină are propria așteptare de a câștiga, iar agentul trebuie să câștige cât mai mulți bani posibil prin aruncarea monedelor mai întâi într-o mașină, apoi în alta Se pare că agentul însuși plătește pentru pregătirea sa și trebuie să poată înțelege din timp că pregătirea (cercetare, explorare) poate fi finalizată și să treacă la utilizarea cunoștințelor dobândite (exploatare) Explorare vs exploatarea este principala problemă, principala dilemă a problemei bandiților multi-armate Nu vom intra în detaliu despre bandiții cu mai multe brațe, deoarece învățarea de întărire profundă începe de obicei, până la urmă, unde există mai multe state, dar trebuie făcute câteva remarci importante Să începem cu cel mai simplu algoritm lacom, care alege întotdeauna strategia de maximizare a profitului Profitul poate fi estimat ca recompensa medie primită dintr-o anumită acțiune: a = Uite - putem câștiga, și cu un scor mediu considerabil! Pentru a afla cum să câștigi, trebuie să calculezi funcția Q*; vom face acest lucru pentru starea inițială sq, înlocuind valorile rămase deodată (sunt considerate într-un mod evident): C*( ,Thr) = -( + maxQ*(si,a)) + -(- + maxQ*(s ,a)) = -( + ) + -(- + ) = , Despre a Pentru Q*(s ,impar) = -(- + maxQ*(s ,a)) + -( + maxQ*(s ,a)) = -(- + ) + -( + ) = Pentru Pentru Aceasta înseamnă că în prima rundă trebuie să alegeți acțiunea Impar, care nu are o probabilitate mare de victorie imediată (știm că inamicul iubește numerele impare), ci invers: trebuie mai întâi să cedeți în fața inamicului pentru a putea calmează-l și obligă-l să-și repete acțiunea - atunci o vom obține, iar runda a doua este mult mai importantă decât prima Și tot acest plan viclean a rezultat natural din ecuațiile lui Wellman Am ilustrat unele dintre rezultatele calculelor noastre în Fig : gri pe el sunt acele stări și acțiuni în care nu vom intra niciodată dacă urmăm strategia optimă dată de Q*, iar negrul sunt acelea în care putem intra (în starea nu a contat ce acțiune să alegem, așa că a ales Chet) Capitolul Orez Joc impar-par: valorile funcției de stat și strategia optimă Rețineți că recalcularea din algoritmul nostru utilizează informații din toate stările predecesoare posibile; întrucât există de obicei o mulțime de stări, toate aceste formule sunt încă practic inaplicabile în practică Dar este posibil să se formuleze o regulă similară pentru un "exemplu de antrenament" constând din starea curentă s, acțiunea a efectuată, starea s' în care ne-am mutat apoi și recompensa imediată r: Q(s, a) := Q(s, a) + a (r + maxQ(s, a/) - Q(s, a) \ A' Garanțiile teoretice ale acestei metode apar dacă fiecare pereche (s, a) apare de un număr infinit de ori în procesul de învățare, sf este selectat din distribuție și r este eșantionat cu medie R(s, a) și varianță limitată Totuși, de fapt, scopul nostru nu sunt funcțiile V și Q, ci strategia optimă r* și căutăm V' doar pentru a îmbunătăți l Cum pot face acest lucru? Deci, am vorbit deja de multă vreme despre funcțiile valorilor de stat și ale perechilor stat-acțiune, am înțeles multe, iar acum este timpul să trecem la cele mai delicioase Aproape toate abordările moderne ale învățării se bazează pe un principiu foarte simplu, dar foarte puternic, care se numește TD-learning (TD-learning), din cuvintele diferență temporală (diferențe temporale) Principiul general al învățării TD este următorul: să antrenăm stările pe baza estimărilor pe care le-am antrenat deja pentru stările ulterioare De fiecare dată când facem o tranziție, "tragem" ușor în sus de funcția V pentru acea stare (sau funcția Q pentru perechea stare-acțiune) de la care am plecat, la valoarea funcției V pentru acea stare (sau Q funcţie pentru perechea stare-acţiune) acţiune) în care ne aflăm Procesele de decizie Markov Cel mai simplu algoritm de învățare TD, așa-numita învățare T ?( ), arată astfel Mai întâi, trebuie să inițializați funcția V(e) și strategia l în mod arbitrar (de obicei cumva aleatoriu), apoi pe fiecare episod de antrenament: • initialize s; • pentru fiecare pas din episod: - alege a conform strategiei l; - face a, observă rezultatul lui r și următoarea stare s; - actualizați funcția V pe starea h după formula: V(s) := V(s) + a (r + - V(s)) ; - treceți la pasul următor atribuind s := s' Asta e tot! La prima vedere, se pare că aici se întâmplă un fel de magie neagră: antrenăm V(e) pe baza altor valori ale lui V(Y) - dar le-am inițializat și aleatoriu! Totuși, totul funcționează: ideea este să folosiți modelele deja antrenate pentru a căuta modele mai profunde În primul rând, valorile lui V(h) vor fi învățate pe stările care conduc direct la recompense reale r, iar apoi aceste valori vor transfera treptat "cunoștințele" acumulate în ele în continuare, către stările anterioare Ca urmare, antrenamentul va fi vizat, antrenamentul TD este mult mai rapid și mai eficient decât alte strategii Cu toate acestea, poate fi și îmbunătățit TD(fi) arată cu un pas înainte; puteți lua în considerare un algoritm care va actualiza stările deodată cu mulți pași înapoi Se numește TD(X), iar L joacă același rol ca înainte: actualizăm fiecare stare cu formula: V(u) := V(u) + a (r + - V(s)) e(u) pe baza valorii c(u) (din cuvântul eligibilitate), care indică cât de des a fost vizitată această stare în trecut Valorile lui e(u) scad exponențial cu exponentul A în același mod: t e(s) = At fc[s = sfc], fe=l unde [s = Sfc] este egal cu unu dacă s - s^, iar zero în caz contrar Dacă A = , TD(X) devine familiarul TD( ) Și valorile lui e(u) pot fi, de asemenea, stocate și recalculate în timp real după fiecare nouă tranziție: Xc(u) + , el(e) dacă starea curentă este și, în caz contrar Capitolul Desigur, în practică, nu toate stările sunt actualizate, ci câteva cu cele mai mari valori ale e(u), care într-o implementare reală sunt de obicei stocate într-o coadă de prioritate Principiul învățării TD poate fi transformat într-un algoritm real în multe feluri Dacă o implementăm pentru funcția Q complet în frunte, obținem algoritmul SARSA, care este un TD-learning on-line, după fiecare tranziție următoare face următoarea actualizare: Q(st,at) := Q(st,at) + a (rt+ + yQ(st+ ,at+ ) - Q(st,at)) • În mod similar, SARSA(A) actualizează valorile pentru toate perechile (s, a) date e(s, a): := Q(s,a) + a [rt+ + yQ(st+ ,at+ ) - Q(st,at)] et(s,a), et(s,a) := y\ et x(s,a) + [s = st,a = at] În acest caz, însă, strategia trebuie să fie soft, de exemplu, b-greedy cu b descrescător, astfel încât algoritmul să poată explora noi acțiuni posibile, dar în timp trebuie cumva să convergă lin; acest lucru introduce dificultăți de inginerie suplimentare în implementare, deoarece multe pot depinde de alegerea caracterului de atenuare c sau de alt parametru "non-lacom" Prin urmare, învățarea TD în afara politicii a funcției Q, care este de obicei numită Q-learning [ ], este mai populară Aici rezolvăm imediat ecuațiile Wellman în raport cu maximele: Q(st,at) := Q(st,at) + a (rt+ + HiaxQ(st+i,a) - Q(st,at^ Acum Q aproximează direct funcția optimă Q*, indiferent de strategie; aceasta înseamnă că putem adera la absolut orice strategie, iar valorile optime corecte ale lui Q * vor fi în continuare antrenate Q(A) poate fi definit în mod similar: Q(s,a) := Q(s,a) + a I rt+± + maxQ(st+i,a') - Q(st,at) I t(s,a), \ a J €t(s,a) := Ă ^ i(s,a) + [s = st,a = at], doar acum mai trebuie sa uitam de urme daca nu urmam strategia: t(s,a) := O if Q(st,at) maxa Q(st,a) Putem vorbi despre învățarea clasică prin întărire pentru o lungă perioadă de timp, dar în acest capitol vom avea destule din principiile de bază ale învățării TD și Q În sfârșit, o mică notă despre surse pentru cei interesați Ghiciți de ce algoritmul se numește SARSA OTTDGammon la DQN Învățarea prin întărire are o situație complet unică în informatică: cea mai bună carte despre învățarea prin întărire este încă cartea lui Richard Sutton și Andrew Barto [ ], publicată în ! Pentru cei care doresc să înțeleagă mai detaliat învățarea prin întărire, vă recomandăm să citiți pur și simplu această carte de la început până la sfârșit (este disponibilă gratuit), este mică și necomplicată, dar este foarte clară și detaliată în toate ideile principale ale această secțiune și multe dintre extensiile lor OTTDGammon la DQN Privirea lui, altădată a unui simplu observator, acum sapă mai adânc, mai întunecat, mai încăpățânat, necruțător S Zweig Sigmund Freud Toți algoritmii de învățare prin întărire despre care am vorbit până acum au folosit valori de forma Q(s,a) sau V(s) și au încercat să obțină aceste valori în mod explicit, de exemplu, antrenează funcția Q* pe toate intrările posibile (s,a) pentru a maximiza apoi rezultatul așteptat prin găsirea strategiei optime Dar chiar aceste stări sunt de obicei un număr astronomic - imaginați-vă câte poziții posibile în jocul go! Și dacă înmulțiți numărul de stări cu numărul de acțiuni posibile din ele, obțineți și mai multe Prin urmare, în realitate, desigur, nimeni nu încearcă să enumere toate stările posibile construind și antrenând un tabel uriaș Q(e, a) Abordarea este de obicei astfel: • să reprezentăm intrările, adică stările s Е S şi acţiunile a Е А, sub forma unor trăsături caracteristice, astfel încât dimensiunea intrării să înceteze să mai fie astronomică; • iar funcția Q(s, a), în care valorile la diferite intrări erau anterior independente unele de altele, poate fi reprezentată ca un fel de model parametric de învățare automată Q(s, a; Ѳ), intrarea de căruia îi sunt date caracteristici care descriu s și A; • atunci funcția Q(s,a; Ѳ) este doar o funcție complexă de atribute într-un număr real (retribuția așteptată, sau probabilitatea acesteia în cazul O mică digresiune: în informatică, într-adevăr, de obicei cărțile proaspete sunt mai bune decât cele vechi, pur și simplu pentru că informatica se dezvoltă foarte repede, iar cărțile noi transmit rezultate noi care le absorb adesea pe cele vechi, oferă o privire proaspătă și o înțelegere mai profundă Dar în matematică în general, situația este adesea inversată Am văzut în repetate rânduri că, de exemplu, cele mai bune manuale de analiză matematică și ecuații diferențiale au fost scrise la începutul și mijlocul secolului al XX-lea, cu așteptările inginerilor de atunci; în aceste cărți, înțelegerea a ceea ce se întâmplă este foarte bine acordată, accentul este pus pe legătura matematicii cu lumea reală și soluționarea problemelor semnificative, și nu doar rescrierea mecanică a formulelor Așa că dacă ai cărți vechi de matematică care adună praf pe mezaninele tale, deschide-le, s-ar putea să fii plăcut surprins Capitolul rezultat binar), iar parametrii săi Ѳ pot fi antrenați prin metode de învățare automată; • conform ideii de TD-learning, fiecare tranziție succesivă (st, at, rt+ , st+ ) va fi intrări pentru învățare; • și fiecare pas de învățare arată astfel: agentul face o mișcare a din starea s, trece într-o nouă stare s', primind o recompensă imediată r pentru aceasta și apoi face un pas de învățare a funcției Q(s, a ; Ѳ) cu intrarea (s, a) și ieșirea din cec / Ѳ) + r (reamintim că în majoritatea covârșitoare a cazurilor r = , recompensa este de obicei acordată doar la sfârșitul episodului de învățare) ; în plus, agentul poate face astfel de măsuri și în raport cu pozițiile anterioare, actualizând ponderile nu numai pentru ultima intrare, ci și pentru mai multe anterioare În această schemă, rețelele neuronale, ca de obicei, funcționează excelent ca o cutie neagră universală care poate aproxima orice funcție, inclusiv funcția Q(s, a) De exemplu, dacă învățarea este înțeleasă ca o coborâre obișnuită a gradientului, atunci actualizăm ponderile rețelei neuronale în conformitate cu următoarea regulă: t wt+ = wt + a (yt+ - yt) ^ fc=l unde î/fc este ieșirea rețelei neuronale la pasul k, iar L este un parametru de amortizare care indică cât de mult trebuie luate în considerare rezultatele ultimei mișcări pentru pre-prev, pre-pre-prev și așa mai departe Se dovedește că cu L = actualizăm ponderile doar pe baza ultimei mișcări, iar cu A = luăm în considerare întreaga istorie de la începutul timpului (adică de la începutul episodului de antrenament, un "joc" ) Primele succese ale rețelelor neuronale în domeniul învățării prin întărire datează din timpuri foarte străvechi În , Gerald Tesauro a dezvoltat un program numit TD-Gammon [ , ]; numele este destul de logic, deoarece acest program a jucat table și a făcut-o cu ajutorul TD-learning TD-Gammon funcționează exact așa cum este descris mai sus, folosind o rețea neuronală obișnuită cu un strat ascuns pentru a învăța din regula de mai sus Tablele s-au dovedit a fi un teren foarte fertil pentru această abordare, deoarece jocul depinde de aruncările de zaruri, ceea ce înseamnă că poți explora o parte semnificativă a spațiului de căutare doar jucând cu tine însuți, zarurile se vor ocupa de toată aleatorietatea necesară Și exact asta a făcut TD-Gammon pentru a învăța: doar jucând milioane de jocuri împotriva ei, învățând treptat din ce în ce mai bine; Magia aici este că nu este nevoie de un set de antrenament TD-Gammon a fost un succes răsunător Din punct de vedere al antrenamentului, a fost un semn bun că modelul s-a scalat bine: pe măsură ce dimensiunea rețelei și timpul alocat pentru antrenament au crescut, rețeaua a început să joace mai bine La fel de OTTDGammon la DQN TD-Gammon a învățat mai întâi cele mai simple elemente ale strategiei și tacticii tablei, apoi a început treptat să evidențieze caracteristici mai complexe Drept urmare, programul, chiar și pe o reprezentare simplă a poziției fără niciun fel de trucuri, a început să joace foarte puternic și, atunci când mai multe caracteristici generate manual din programul anterior Neurogammon [ ] au fost adăugate la reprezentare, TD-Gammon a început să concureze cu succes cu campioni umani Singurele puncte slabe ale TD-Gammon au fost erorile în utilizarea dublarii și jocul final slab: TD-Gammon a privit doar două mișcări înainte, iar finalurile chiar și în table necesită un calcul mai profund Prin urmare, în jocurile de expoziție, TD-Gammon a pierdut puțin în fața campionilor de atunci Cu toate acestea, TD-Gammon a avut un impact major asupra dezvoltării tablei: unele poziții clasice au fost complet reevaluate de jucătorii umani, deoarece evaluarea lui TD-Gammon era contrară intuiției umane și practicii de joc; același efect a putut fi observat mai târziu în șah, și acum în go Cu toate acestea, TD-Gammon a rămas multă vreme aproape singurul program de succes bazat pe ideile de învățare a rețelelor neuronale cu întărire Desigur, cercetătorii au încercat imediat să aplice o abordare similară șahului și să plece, dar nu au reușit Au urmat chiar și lucrări relativ pesimiste, care au arătat că învățarea Q cu aproximări parametrice neliniare (și o rețea neuronală este cea mai neliniară aproximare care există) diverge adesea [ ], iar succesul TD-Gammon sa datorat exclusiv distribuția uniformă a efectului de învățare menționat mai sus peste spațiul de căutare datorită cuburilor [ ] Din fericire, aceste prognoze pesimiste nu s-au adeverit; Pe măsură ce revoluția învățării profunde a evoluat, au început încercările de modelare a funcțiilor V și Q, precum și a mediului agentului, folosind rețele profunde După lucrările timpurii [ , ], descoperirea care a stabilit în cele din urmă direcția pentru progresele moderne a fost realizată de munca lui Volodymyr Mnih (Volodymyr Mnih) și a co-autorilor de la Google DeepMind, în care au aplicat ideile de învățare prin întărire timpurii , dar nu mai puțin atractive jocuri pentru console și aparate arcade Atari; da, da, Pong, Space Invaders, Breakout și alte hituri clasice ale anilor Prima lucrare a fost postată pe arXiv în [ ], iar un model ușor îmbunătățit și aplicat unui număr mai mare de jocuri diferite a fost descris într-un articol din publicat într-una dintre principalele reviste științifice din lume, Nature [ ] Acest lucru abordarea se numește învățare profundă cu întărire (învățare prin consolidare profundă), iar rețelele antrenate în acest fel sunt numite rețele Q profunde (rețele Q profunde, DQN) Apropo, un articol despre AlphaGo a apărut și în Nature [ ]; rezultatele sunt cu siguranță geniale, dar însăși ideea că articole despre programe de calculator care joacă jocuri de societate și jocuri pe calculator sunt publicate în Nature a fost întotdeauna puțin contraintuitivă pentru noi Capitolul DQN în [ ] are unele îmbunătățiri mici, dar importante față de arhitectura subiacentă descrisă mai sus În primul rând, practica arată că învățarea directă din cadrele de joc succesive este o idee proastă: cadrele învecinate sunt prea asemănătoare între ele, puternic corelate, iar în timp, distribuția lor, desigur, se schimbă în funcție de cursul jocului, dar rămâne localizată Acest lucru împiedică învățarea eficientă, deoarece în formularea obișnuită a problemei de învățare, presupunem că datele de antrenament sunt independente, iar distribuția datelor nu se modifică în timp Prin urmare, pe măsură ce DQN învață, mai întâi acumulează o anumită experiență, salvând acțiunile sale și rezultatele lor pentru o perioadă de timp, apoi selectează un mini-lot aleatoriu de exemple individuale pentru a învăța din această experiență, luate în ordine aleatorie; Strategia e-greedy a fost folosită pentru a câștiga experiență în timpul antrenamentului Din punct de vedere formal, la fiecare pas de învățare t: • alegem următoarea acţiune sj (în strategia e-greedy, alegem o acţiune aleatoare cu probabilitate e = arg max Q(st, a; t) în caz contrar; • faceți această acțiune, obținând recompensa rt și următoarea stare; nou o unitate de experiență este stocată în memorie; • apoi selectați din memorie un mini-lot aleatoriu de astfel de "unități de experiență" pentru învățare; pentru simplitate, să fie o unitate • se calculează ieșirea rețelei yj (mai multe despre aceea de mai jos) și se face un pas de coborâre a gradientului pentru funcția de eroare L = (yy - Q(sj,aj-, )) ; aceasta înseamnă că deplasăm greutățile rețelei prin = (yj - Q(-Sj,aj- )) VoQ(s,a-, ) În al doilea rând, un rol important pentru succes l-a jucat faptul că la antrenamentul DQN, rețeaua care era responsabilă pentru funcția țintă (rețeaua țintă) a fost separată de rețeaua care este antrenată efectiv Practica arată că, dacă învățarea TD este aplicată direct, aproximatorii prea puternici (de exemplu, rețelele neuronale) dezvăluie tendințe indubitabile la halucinații: ajung rapid în unele extreme locale inventate de ei înșiși și încep să exploreze părți complet lipsite de sens ale spațiului de căutare foarte profund, risipind resurse fără scop și nu învățând efectiv Din fericire, această problemă este relativ ușor de rezolvat: este suficient ca rețeaua să nu utilizeze imediat versiunea actualizată în funcția obiectiv, ci să învețe mult timp din vechile mostre înainte de a face o actualizare globală cu drepturi depline Cu alte cuvinte, în algoritmul de mai sus, luăm în considerare Uz = Vj + maxa/Q(s -,o -; o), dacă episodul de antrenament s-a încheiat, dacă nu, OTTDGammon la DQN unde Ѳ sunt niște greutăți fixe care nu se modifică după fiecare caz de testare, doar Ѳ se modifică La un moment dat, de obicei o dată la unul sau mai multe episoade de antrenament, trebuie să reveniți la aceste ponderi ale funcției obiectiv și să atribuiți Ѳo := Ѳ De facto, antrenăm două rețele în paralel: una determină comportamentul, iar cealaltă determină funcția țintă; au aceeași structură și învață la fel pe aceleași date, dar o rețea rămâne treptat în urma celeilalte, sărind din când în când "atingând-o din urmă" cu prima În al treilea rând, este de remarcat faptul că, în practică, se utilizează de obicei o arhitectură în care posibila acțiune a agentului a E A nu este alimentată la intrare, ci pur și simplu rețeaua are cât mai multe ieșiri posibile, iar la intrare s E S rețeaua încearcă să prezică rezultatele fiecărei acțiuni (după care, desigur, alege maximul) Aceasta este o îmbunătățire importantă, deoarece vă permite să obțineți răspunsuri pentru toate acțiunile dintr-o singură trecere prin rețea, ceea ce accelerează ceea ce se întâmplă uneori, iar rețeaua nu devine mult mai dificilă, deoarece partea principală a acesteia " logica" rămâne aceeași și este folosită din nou Și, în sfârșit, o altă îmbunătățire importantă este trecerea la așa-numita rețea de dueluri împărțim rețeaua Q în două canale, dintre care unul calculează estimarea poziției V(s; Ѳ), care este o funcție de poziție și nu depinde de acțiunea curentă a, iar celălalt, care depinde de acțiune funcția de acantare (funcție de avantaj) A(s, a; v) În ultimul pas, pur și simplu se adună: Q(s, a; Ѳ) - V(s; Ѳ) + A(s, a; Ѳ) Astfel, o parte a rețelei este instruită să evalueze poziția ca atare, iar cealaltă parte este antrenată să prezică cât de utile vor fi diferitele noastre acțiuni în această poziție Apropo, rețineți că, desigur, nu putem distinge unul de celălalt în eșantionul de instruire, aceasta este doar o arhitectură de rețea ușor modificată și încă antrenăm funcția Q(s, a; Ѳ), dar aceasta este o schimbare a arhitecturii oferă "hint" potrivit și adesea îmbunătățește semnificativ rezultatele În [ , ], această abordare a fost aplicată pentru a juca jocuri Atari, iar intrarea nu a fost starea jocului (acest lucru ar necesita soluții de inginerie separate pentru fiecare joc și este exact ceea ce am dori să evităm), dar terenul de joc real este ca o imagine de pixeli, aceeași pe care o vede jucătorul uman pe ecran Mai exact, intrarea a fost o concatenare a ultimelor patru cadre ale jocului, adică putem spune că agentului nu i-a fost prevăzută o memorie lungă, abia putea estima vitezele diferitelor obiecte de pe ecran În secțiunile algoritmice ale informaticii, metaforele animalelor sunt adesea folosite în astfel de situații; de exemplu, în "algoritmul de iepure și țestoasă", atunci când se caută un ciclu într-un grafic, indicatorul de iepure îl depășește treptat pe indicatorul de țestoasă "de un cerc", și așteptăm până când se întâlnesc din nou Și aici avem mai degrabă un "algoritm iepure și cangur": rețeaua care determină comportamentul învață rapid și încetul cu încetul, în pași mici, iar rețeaua care determină funcția obiectiv din când în când ajunge din urmă cu iepurele punct de control cu un salt maiestuos Capitolul Singura îngăduință care i s-a făcut agentului a fost că nu a fost forțat să învețe cum să citească numerele de puncte , ci pur și simplu a oferit numărul de puncte din joc într-o formă explicită (în timp ce îl acoperi în imagini); în cele din urmă, au venit cu o schemă și mai simplă: au oferit o recompensă de + pentru fiecare realizare pozitivă din joc și - pentru fiecare eveniment negativ (în Atari, aceasta este de obicei pierderea unei alte "vieți") Drept urmare, s-a dovedit că o astfel de rețea, neștiind nimic despre "regulile jocului" în sine, a învățat pur și simplu să joace multe jocuri Atari mai bine decât o persoană doar prin imaginea de intrare și funcția obiectiv Este curios, însă, că nu în toate Jocuri fără strategie pe termen lung precum Breakout sau Video Pinball trimise la DQN fără îndoială, rezultatele au fost de zece ori mai mari decât cele umane (amintim că vorbim despre experți umani, cei mai buni jucători din lume în jocul corespunzător) S-au obținut rezultate la nivel uman sau rezultate puțin mai bune în jocuri precum Pong și Space Invaders, unde strategia este acolo, dar nu este foarte obligatorie și nu foarte lungă Dar în jocurile în care trebuie să te gândești mult timp înainte, nu s-a întâmplat nimic; de exemplu, în Montezuma's Revenge, DQN nu a învățat deloc să joace, obținând în mod constant zero rezultate O abordare similară a dus la succes în jocul Go, dar aici, pentru ca acea "strategie pe termen lung" să funcționeze în continuare, vor fi adăugate câteva idei mai importante, așa că vom vorbi despre AlphaGo separat în secțiunea Și încă o notă: Învățarea prin consolidare pentru jocuri și lucruri similare diferă de majoritatea altor probleme de învățare automată prin faptul că aici avem o sursă practic nelimitată de exemple noi de antrenament În cazul jocurilor Atari, putem rula simulatorul de joc de câte ori vrem, încercând diferite strategii și antrenând modelul să joace bine În cazul unui joc de table sau go, modelul se poate juca cu el însuși cât dorește, primind și o secvență aproape nelimitată de exemple pentru antrenament Și, deși aceste exemple vor depinde într-un anumit sens de versiunea actuală a modelului - la urma urmei, acesta este (de obicei, cu zgomot aleatoriu adăugat pentru cercetare) care joacă atunci când sunt create noi exemple de antrenament - încă nu se compară cu situațiile obișnuite , când există un yes-taset fix, și cel mai mult pe care îl puteți face este să adăugați niște zgomot aleatoriu, ca într-un autoencoder de dezgomot (vezi Secțiunea ) Pe de altă parte, învățarea unei strategii bune cu învățare prin întărire în orice situație suficient de complexă este un proces lung și complicat: aceleași modele DQN pentru jocurile Atari, chiar și pe cele mai moderne plăci video, sunt antrenate timp de câteva zile înainte de a putea afișa vreunul rezultate rezonabile Prin urmare, este destul de logic ca în învățarea prin consolidare profundă, accentul principal al cercetărilor ulterioare de până acum nu a fost pe utilizarea cât mai eficientă a fiecărui exemplu de antrenament (sunt ușor de generat mai multe), ci pe învățarea cât mai repede posibil Și de ce ar considera agentul că aceste numere trebuie crescute și că în general au un fel de ordine În general, stabilirea obiectivelor este încă un punct slab al inteligenței artificiale Rețelele neuronale au încă probleme evidente cu motivația: poate că inteligența artificială ar fi înrobit lumea cu mult timp în urmă, dar cumva nu vrei OTTDGammon la DQN Următoarea descoperire în ceea ce privește viteza de învățare a venit cu învățarea de întărire asincronă, care utilizează două caracteristici ale învățării DQN: • în primul rând, învățarea nu are loc după fiecare mișcare, ci prin eșantionare aleatorie din memoria acumulată, iar pentru învățare, trebuie mai întâi să colectați un anumit număr de cazuri de testare și abia apoi să actualizați ponderile modelului; • în al doilea rând, rețeaua care generează valorile țintă pentru funcția de pierdere nu este aceeași rețea care este antrenată după fiecare mini-lot, poate și chiar ar trebui să rămână semnificativ în urma rețelei care generează comportamentul agentului Prin urmare, s-a dovedit că învățarea prin întărire poate fi împărțită în mai multe părți practic independente, care ar trebui să împărtășească știri între ele numai în anumite momente de timp suficient de îndepărtate, iar între ele pot funcționa complet în paralel și independent: • trebuie să existe în continuare un proces central, un server care stochează valorile curente ale parametrilor, le actualizează după cum este necesar și le distribuie tuturor celorlalți; • primul tip de procese sunt de fapt "jucători" care interacționează cu lumea exterioară și câștigă experiență nouă; ei trebuie să primească din când în când actualizări ale parametrilor modelului de la server (sunt utilizați la alegerea acțiunilor) și ei înșiși acumulează pur și simplu unități de experiență sub forma celor patru (§^, a^, n, "^ + i ) și transferați experiența acumulată în memoria partajată; • al doilea tip de procese, "antrenori", primesc experiență din stocarea memoriei sub formă de mini-loturi de unități de experiență și calculează gradienții funcției de eroare; pentru aceasta au nevoie de o rețea care generează valori țintă, și una actuală, astfel încât "tutorii" să fie în contact mai strâns cu serverul; dar rețineți că acestea sunt încă complet independente, fiecare calculând propria valoare a gradientului și propriile actualizări ale greutăților modelului; • în cele din urmă, serverul însuși colectează toate aceste actualizări, le aplică modelului stocat de el și la un moment dat (de obicei obișnuit, dar destul de rar) distribuie modelul actualizat înapoi "jucătorilor" și "antrenorilor" și, de asemenea, actualizează modelul, generând valori țintă; se dovedește că sincronizarea într-o astfel de arhitectură este, desigur, necesară, dar se poate face relativ rar În [ ], această abordare a fost aplicată pentru a paraleliza învățarea prin întărire la un cluster de mai multe calculatoare: în arhitectura dezvoltată de autori cu numele caracteristic Gorila (din cuvintele General Reinforcement Learning Architecture), fiecare dintre procesele descrise mai sus poate fi implementat pe un computer separat Capitolul Orez Arhitectură distribuită Gorila [ ] Și apoi s-a dovedit că puteți paraleliza toate acestea și mai eficient dacă utilizați fire ale aceluiași procesor ca agenți separați; atunci se pot referi doar la același model din memorie și totuși își pot face treaba relativ independent Am descris arhitectura Gorila în Fig Rețineți că literalmente totul este paralelizat aici În primul rând, mai mulți "jucători" (actori) independenți acționează fiecare în propria copie a mediului, generând noi unități de experiență și transferându-le în memoria globală (memoria de reluare) În al doilea rând, există și mai mulți "învățători": fiecare conține o copie a rețelei Q și calculează gradienți din următorul său mini-lot de exemple de antrenament luate din memorie; rețeaua Q țintă (rețeaua țintă) este utilizată pentru a calcula gradienții În al treilea rând, acești gradienți sunt trimiși către serverul de parametri, care conține, de asemenea, mai multe noduri paralele (shards), fiecare dintre ele stochează și actualizează partea sa separată a vectorului parametrilor de rețea Ѳ Este curios că învățarea asincronă nu este doar mai rapidă, ci și semnificativ mai bună Motivele acestui efect nu sunt cunoscute exact, dar pare să fie același efect care ajută la coborârea gradientului stocastic: învățarea asincronă distribuită duce la faptul că modelul nu încearcă să exploreze aceeași parte a spațiului de căutare prea detaliat Diferiți "jucători" se comportă diferit, iar atitudinile lor "părtinitoare" față de diferite părți ale spațiului de căutare sunt mediate În [I], primele rezultate ale DQN pe jocurile Atari au fost depășite de câteva ori, în timp ce timpul total de antrenament a fost redus; este curios că plăcile video nu au fost folosite pentru antrenament, iar totul a fost făcut în fire pe un procesor modern obișnuit biscuit de bambus biscuit de bambus Renju este lotul oamenilor de rând, șahul este jucat de eroi, go este jocul zeilor proverb japonez Meijin jucase multe meciuri în care soarta lui era în joc și nu pierduse niciodată în acest gen de meci Jocul lui era puternic chiar înainte să devină Meijin, iar jocurile pe care le juca după ce câștigase deja titlul asigurau întreaga lume de invincibilitatea lui Faptul că el însuși a crezut în ea, de altfel, a vrut să creadă, nu a făcut decât să agraveze tragedia Eu sunt Kawabata Meijin ianuarie Google anunță solemn că s-a ajuns la un acord important: într-o lună va avea loc un meci între Lee Sedol, eroul național al Coreei, marele campion al jocului Go, care este încă unul dintre cei mai buni jucători din lume, și programul nou apărut AlphaGo, dezvoltat de Google DeepMind și acum câteva luni care a câștigat campionul european Fan Hui Se pare că pentru Lee Sedol, apariția unui program cu care Google îi oferă un milion de dolari pentru câștigarea unui meci este doar o modalitate de a câștiga bani: este absolut încrezător în sine și nu permite nici măcar gândul la înfrângere La conferința de presă, Lee Sedol aduce un omagiu dezvoltatorilor programului și recunoaște că AlphaGo poate reprezenta un nou pas în dezvoltarea computerului Go, dar este fără echivoc în ceea ce privește rezultatul meciului: "De data aceasta, bineînțeles, eu va câștiga cu scorul de : sau : , dar sunt sigur că peste - ani creatorii AlphaGo vor dori să se răzbune de la mine Atunci îmi va fi foarte greu să câștig" [ ] martie La conferința de presă din ajunul meciului, Lee Sedol încă nu are nicio îndoială că este mai puternic decât computerul, dar declarațiile campionului devin mai prudente: "Acum mi se pare că AlphaGo poate imita într-o oarecare măsură intuiția umană Probabil că ar trebui să-mi fac un pic griji pentru rezultatul meciului Dar sunt încă încrezător în victoria mea martie Lee Sedol dă mâna cu Aja Huang de la AlphaGo și demisionează pentru al treilea joc consecutiv al meciului Scorul devine : în favoarea AlphaGo; Lee Sedol va putea câștiga în stil genial Transcriere castă; și chiar faptul că al doilea profesionist dan Fan Hui, care s-a mutat în Europa din China, a devenit campionul Europei, din păcate, a caracterizat destul de bine nivelul European Go Dar acum există deja un progres indubitabil, iar aici Rusia este înaintea restului Europei: mai mulți jucători de nivel profesionist au apărut deodată în Rusia, iar în Campionatul Mondial de Amatori va avea loc la Vladivostok - înainte de asta, acest turneu era aproape ținut întotdeauna în Japonia, de mai multe ori în China și literalmente o dată fiecare în Coreea și Thailanda Capitolul în al patrulea joc, dar în trei zile meciul se va încheia cu scorul de : , iar programul AlphaGo însuși a primit un certificat onorific al celui de-al nouălea dan profesionist ca a îndeplinit cerințele federației profesionale Rezumând meciul, Lee Sedol a scris: "O săptămână cu AlphaGo a fost ca un popper de bambus pentru mine "Slăbiciunile lui Go Lee Sedol au fost complet expuse Concepțiile vechi și rigide ale comunității profesionale Go au fost spulberate Trebuie să regândim și să reconsiderăm mișcările pe care le-am luat de bune" [ ] Spune, aceasta este povestea mândriei fără margini a unui profesionist coreean încă tânăr? La urma urmei, s-ar părea că de mult a fost clar că cu computerele în jocurile de masă, în special în jocurile cu informații complete, glumele sunt proaste: Garry Kasparov a pierdut DeepBlue cu douăzeci de ani înainte de evenimentele descrise, iar programele moderne de șah joacă cinci mii de puncte Elo mai puternic decât cei mai buni mari maeștri Lee Sedol era într-adevăr atât de ignorant cu privire la puterea de calcul a computerelor de astăzi? Deloc AlphaGo a devenit cu adevărat o senzație; practic niciun expert nu a prezis nici o victorie atât de încrezătoare a programului înainte de meci, nici victoria lui în general În acest capitol, vom vorbi despre motivul pentru care computerul Go este atât de dificil, vom descrie cum funcționează AlphaGo și ce a adăugat la programele deja existente pentru a juca Go, vom arunca o privire mai atentă la modelele profunde care sunt utilizate în acest caz și vom discuta câteva aplicații mai interesante învățare profundă cu întărire Dar mai întâi trebuie să vorbim despre ce este de fapt La un an de la meciul cu Li Sedol, la un congres Future of Go Summit special asamblat, desfășurat la sfârșitul lunii mai la Wuzhen (China), a avut loc un meci între AlphaGo și numărul în clasamentul mondial, chinezul Ke Jie (Ke Jie) În mod curios, Ke Ze a fost jucat de așa-numita versiune AlphaGo Mașter, care a învățat mai mult din jocurile cu sine decât din jocurile profesioniștilor Go și a lucrat de pe un singur computer pe Google Cloud cu TPU, și nu pe o rețea distribuită din Procesoare și GPU așa cum sunt jucate cu Lee Sedol Cu toate acestea, AlphaGo nu a avut probleme mari: deși primul joc a fost foarte tensionat, iar evaluarea poziției de către AlphaGo a rămas egală foarte mult timp, drept urmare, Ke Jie a fost învins cu scorul de : În plus, AlphaGo a câștigat un joc împotriva unei echipe de cinci profesioniști de top Ce s-a întâmplat? Cum este organizat AlphaGo și de ce a reușit să învingă o persoană în cel mai "umane" dintre jocurile discrete cu informații complete? Biscuiții de bambus sunt folosiți în practica meditației Zen: se bate din când în când un biscuit mare pentru ca meditatorii să nu adoarmă; de aici imaginea folosită de Lee Sedol - AlphaGo "și-a deschis ochii" Prognozele amatorilor și profesioniștilor ruși pot fi citite în revista federației de stat ruse "oGo": http://rusgo org/magazinel / Unul dintre autorii cărții a participat și el la sondaj și a fost evident prea precaut, prevăzând că Lee Sedol ar putea subestimea AlphaGo la început și ar putea pierde un joc biscuit de bambus În primul rând, puțină istorie Primele programe pentru jocul Go, precum și pentru șah, au apărut la sfârșitul anilor șaizeci; cel mai faimos dintre ele este asociat cu numele lui Albert Zobrist Cu toate acestea, a devenit rapid clar că este încă imposibil să înveți cum să joci bine și au uitat de asta pentru o vreme Interesul a revenit la mijlocul anilor optzeci, când au apărut computerele personale și au apărut programe de șah care au jucat destul de puternic (dar nu i-au învins încă pe campioni) Din , campionatul Go printre programele de calculator se desfășoară sub auspiciile Fundației Ina (Ing Changqi este un multimilionar taiwanez, iubitor și popularizator al jocului go); fondul a stabilit, de asemenea, un premiu de de milioane de dolari taiwanezi (aproximativ un milion și jumătate de dolari SUA) pentru creatorii unui program care ar putea învinge unul dintre profesioniștii go chinezi sau taiwanezi (orice forță, de fapt, era necesar să se bată un prim jucător profesionist de dan) Premiul s-a menținut până în , în anii au apărut programe atât de celebre și importante precum Handtalk și Manu Faces of Go și cum se jucau? În , Deep Blue l-a învins pe Garry Kasparov într-un meci oficial În același an, , Handtalk a primit o parte din premiul Fundației Ina învingând trei jucători de la al doilea până la al șaselea dan, cu - Nu sună atât de rău, e cam la fel ca un candidat la maestru în sport în șah dar acești amatori aveau de la la ani, și jucau pe pietre de handicap Go are un sistem de handicap foarte logic și convenabil, care este adesea folosit în turnee, dar în jocurile între oameni, aproape niciodată nu se găsesc mai mult de nouă pietre de handicap; a învinge un amator dan mediu cu pietre de handicap este ca și cum ai învinge un maestru de șah candidat care ți-a dat o regină și o turnă înainte De ce este atât de dificil să mergi? În multe alte jocuri (de exemplu, la șah), așa-numita căutare cu tăiere alfa-beta (căutare alfa-beta) funcționează bine: construim un arbore minimax al mișcărilor, aruncăm mișcările care sunt evident mai rele decât altele, prin urmare tăind ramurile nepromițătoare ale copacului și faceți o căutare în profunzime Ceva de genul acesta a funcționat și Deep Blue Dar go este o chestiune complet diferită: într-o poziție normală de șah există - de mișcări posibile, dintre care multe duc imediat la pierderi materiale semnificative și poți înceta imediat să le mai iei în considerare, iar în go există aproximativ de mișcări posibile (orice pătrat pe o tablă de x , cu excepția angajaților), iar dintre ei "destul de rezonabil" este tot de aproximativ o sută De asemenea, este dificil să evaluezi o poziție: în șah, poți calcula materialul și câteva euristici poziționale simple, iar dacă decalajul este mare, atunci evaluarea poziției este cel mai probabil evidentă; un grup mare poate cădea, de asemenea, în go, dar acest lucru este rar, de obicei pierderile vor fi teritoriale și foarte greu de estimat Apropo, iată una foarte dificilă pentru tine În go, există o diferență semnificativă între profesioniști (acesta este titlul oficial) și amatori - dansii amatori sunt considerați (și sunt) semnificativ mai slabi decât cei profesioniști, adică puterea acestor jucători nu a atins nivelul cerut de primul dan profesionist Capitolul sarcină de automatizare: pentru o anumită poziție finală în go, când oamenii au terminat deja jocul, determinați cine, de fapt, a câștigat Cu tactici în care computerele ar trebui, în teorie, să "înșele" oamenii, nici în Go nu este atât de simplu: tacticile de acolo sunt întotdeauna legate de strategie și de interacțiunea pietrelor de pe toată tabla și, în plus, este mult mai ușor pentru o persoană să numere în Go decât în șah (pentru că "piesele" nu se mișcă aproape niciodată) Și încă nu vorbim despre co-luptă, pe care programele le-au făcut întotdeauna în mod dezgustător Prima revoluție în computer Go a avut loc în , când pentru acest joc a fost folosită căutarea arborilor Monte-Carlo (MCTS) [ , ] Implementat mai întâi în MoGo și mai târziu în toate celelalte programe, MCTS funcționează surprinzător de simplu: pentru a evalua o poziție, rulăm simulări aleatorii pornind de la acea poziție, ne uităm la ce ramuri Negru sau Alb au câștigat mai multe jocuri aleatoare și apoi repetăm recursiv această căutare la cele mai promițătoare noduri ale arborelui rezultat Partea principală a MCTS este o formulă prin care un nod este selectat pentru analiză ulterioară Toate acestea se bazează pe aceiași bandiți multi-armate despre care am vorbit în Secțiunea , iar algoritmul UCT (upper confidency bound UCB aplicat arborilor) selectează nodul cu cea mai mare prioritate unde Wi este numărul de victorii din nodul i, n i ~ numărul de simulări din acesta, c este un parametru, adesea a t = P i numărul total de simulări; compara cu UCB Ideea de a juca o poziție până la capăt cu mișcări aleatorii pare foarte ciudată, dar au urmat imediat rezultate mai rezonabile: în , MoGo a atins nivelul de dan pe o placă x , iar în , Fuego a învins unul dintre jucători de top pe o tablă x , dar cu "reale" go, pe o tablă x , totul a mers mai încet: în Zen a ajuns la nivelul primului dan amator, în o nouă versiune de Zen a câștigat un meci împotriva unui amator al doilea dan pe o placă full-size cu un scor de : , iar în CrazyStone a învins un pro al nouălea dan (cel mai înalt rang în Go) cu patru pietre de handicap Dar tot acest progres a fost destul de lent și treptat, au existat multe lacune evidente în jocul de programe de calculator și nimic nu a prefigurat succesul brusc al AlphaGo Ko-fighting este o secțiune specială a tacticii Go care derivă din interdicția de a repeta o poziție Nu vom intra în detalii, deși recomandăm insistent cititorilor să încerce Go în practică: sunt foarte puține reguli (mult mai puține decât la șah), dar din ele unul dintre cele mai profunde și interesante jocuri existente Ideea algoritmului MCTS este, desigur, aplicabilă nu numai pentru Go Să menționăm cea mai generală opțiune, General Game Playing Aceasta este o competiție între programe cărora li se oferă regulile unui joc nou, necunoscut anterior (în mod firesc, nu în text, ci într-un format unificat) și trebuie să înceapă imediat să-l joace și să câștige În , CadiaPlayer, bazat pe MCTS, a devenit campionul General Game Playing, iar de atunci această abordare a devenit general acceptată [ , ] biscuit de bambus Orez Arhitectura AlphaGo [ ] Să aruncăm o privire mai atentă la exact cum funcționează AlphaGo [ ]; arhitectura sa generală este prezentată în Fig AlphaGo are mai multe rețele care au fost antrenate secvenţial În primul rând, rețeaua de politici SL (din cuvintele învățare supervizată) a fost antrenată pentru a prezice mișcările: o rețea convoluțională cu straturi selectează caracteristici pe toată placa și este antrenată pe jocuri profesionale ( de milioane de poziții de pe serverul KGS), la ieșirea de rețeaua, distribuția mișcărilor probabile ra (și I s) Rețeaua de politici SL a AlphaGo a reușit să prezică corect , % din mișcările profesioniștilor, ceea ce este mult, având în vedere că în majoritatea pozițiilor pot exista câteva mișcări perfect rezonabile Deci, după aceea, avem o rețea care poate prezice mișcările destul de bine În plus, în plus, antrenăm o strategie p rapidă, dar nu atât de inteligentă: acuratețea sa este de "doar" , %, dar poate evalua o poziție în două nanosecunde (!) în loc de trei milisecunde A doua rețea este rețeaua de politici RL, de la cuvintele învățare prin consolidare Aceasta este deja o rețea care implementează o strategie de învățare prin întărire și funcționează astfel: aceeași structură de bază a unei rețele convoluționale cu straturi este inițializată cu ponderile rețelei de politici SL și apoi se joacă cu ea însăși (mai precis, cu una dintre iterațiile anterioare de antrenament) Greutățile sunt antrenate în continuare astfel încât să maximizeze probabilitatea de câștig În această etapă, după o învățare de întărire (de lungă, foarte lungă), se obține o rețea de politici RL, care singură, fără nici un calcul de opțiuni, doar prin aproximarea globală a strategiei optime, câștigă % din jocurile împotriva Rețeaua de politici SL și aproximativ % din jocurile împotriva lui Pachi, unul dintre cele mai bune programe MCTS! Apoi, trebuie să utilizați strategia rezultată pentru a antrena funcția reală de estimare a poziției V#(s) Vom prezice rezultatul jocului în funcție de poziție folosind o rețea neuronală (rețea de valori), a cărei structură este din nou similară cu politica Capitolul rețea, dar acum are doar o singură ieșire (prevădiți rezultatul) Dacă încercăm să-l antrenăm pe un set de jocuri profesionale, ne vom lovi rapid de supraadaptare, datele din jocurile profesionale clar nu sunt suficiente Prin urmare, Vg(s) este antrenat pe un set de jocuri de rețea de politici RL împotriva sa; Putem genera oricâte dintre acestea dorim Rezultatul este o rețea de estimare a poziției globale care este foarte rapidă în comparație cu MCTS și oferă calitate la nivelul MCTS cu politica RL (dar de k ori mai rapidă) și mult mai bună decât MCTS obișnuit Ei bine, acum că funcția de estimare a poziției este gata, putem număra copacii AlphaGo construiește un arbore asemănător MCTS în care probabilitățile anterioare sunt inițializate prin intermediul rețelei de politici SL ca pa(a | s) În fiecare foaie L, AlphaGo calculează rețeaua de valori Vg(sp) și rezultatul reluărilor aleatorii ale acestei poziții zp, generate folosind strategia pp, apoi combină rezultatele În mod curios, în experimentele AlphaGo, rețeaua de politici SL a funcționat mai bine pentru construirea arborelui (aparent pentru că oferă opțiuni mai diverse), dar este mai bine să construiești funcția de estimare a poziției pe baza unei rețele de politici RL mai puternice Așa s-a dovedit "biscuitul de bambus" pentru Lee Sedol și unul dintre cele mai importante momente din lumea inteligenței artificiale din ultimii ani Și în vara lui , la Congresul European Go de la Sankt Petersburg, campionul european Fan Hui a făcut un raport despre modul în care AlphaGo poate ajuta la dezvoltarea jocului în sine În primul rând, succesul AlphaGo a fost un succes imens de imagine pentru Go ca joc; în săptămâna meciului lui Lee Sedol cu AlphaGo, în întreaga lume s-au vândut de zece ori mai multe gobani (tablete de joc) decât de obicei În ceea ce privește esența jocului, Fan Hui a spus că AlphaGo a fost primul program care a urmat de fapt cea mai importantă poruncă a lui Go, formulată de legendarul jucător chinez Shusaku Honin-bo: "Lăcomia nu învinge niciodată" Mulți jucători mari au remarcat că este foarte important să joci Go calm, lăsând emoțiile în urmă; un astfel de stil calm este cunoscut pentru marele campion al trecutului recent, care nu zâmbește niciodată, coreeanul Lee Chang-Ho; și în acest sens, desigur, programele de calculator sunt superioare oamenilor AlphaGo, potrivit lui Fan Hui, poate oferi o nouă viziune lumii Go, poate oferi mișcări noi pe care nici cei mai buni jucători nu le pot vedea întotdeauna: au existat mai multe astfel de exemple în cele cinci jocuri descrise mai sus cu Li Sedol În cele din urmă, Fan Hui a arătat pentru prima dată o vizualizare a modului în care AlphaGo alege de fapt mișcările și o vizualizare a evaluării poziției pe care AlphaGo o face în timpul jocului El a arătat câteva exemple specifice despre modul în care AlphaGo schimbă evaluarea clasică a pozițiilor standard, se abate de la joseki vechi de zeci de ani (continuări standard) și obține poziții care nu sunt mai proaste, ci mai degrabă mai bune decât cele standard Și aceste mișcări încep deja să apară în jocurile profesioniștilor "vii" Potrivit lui Fan Hui, prin aceste mișcări, AlphaGo l-a "eliberat" pe Go, a arătat că multe continuări care anterior erau considerate rele și nu au fost jucate niciodată pur și simplu "din motive generale" vor deveni acum destul de acceptabile Gradient peste strategii și alte aplicații Gradient peste strategii și alte aplicații Victor s-a ridicat încet de pe scaun, s-a uitat atent la Electronics, de parcă ar fi căutat un punct slab în el Va depăși un robot un om în învățare? - el a intrebat "Se poate întâmpla", a răspuns Elek, "dacă o persoană însuși încetează să învețe Apropo, este mai dificil pentru o mașină să învețe decât pentru o persoană", a adăugat el E Veltistov Noi aventuri în electronică Până acum, aproape toate aplicațiile de învățare prin consolidare profundă pe care le-am considerat au fost legate exclusiv de jocuri: una dintre cele două lucrări principale despre DQN descrise mai sus a învățat cum să joci Go, iar cealaltă - în general, computerul jocuri din anii optzeci Trebuie spus că aplicarea învăţării prin întărire la jocuri nu s-a încheiat cu victoria în th; în special, acum ar trebui să ne așteptăm la rezultate strălucitoare în diferite jocuri pe calculator Este curios că, în timp ce în jocuri precum StarCraft și DotA , reflexele, microcontrolul și capacitatea de a calcula cu precizie acțiunile în timp și spațiu joacă un rol important (când se termină această vrajă, cât de departe trage marinul etc ), și în asta, computerul are inițial un avantaj imens față de o persoană, de fapt, până acum în aceste discipline eSports, roboții nu pot concura cu oamenii Așadar, la cel mai mare turneu DotA , desfășurat în , The International , ca rezultat inovator, DeepMind a introdus un bot care a fost capabil să-i învingă pe cei mai buni jucători într-un meci unu-la-unu - adică într-un dezbrăcat- versiunea inferioară a DotA , unde de fapt nimic altceva decât microcontrol și nu Dar totuși, ni se pare că succesul în eSports nu este departe nici pentru programele de calculator: DeepMind a preluat deja în serios DotA și StarCraft, așa că lucrurile vor merge cu siguranță bine Dar există aplicații mai serioase, "adevărate" pentru aceste modele? Desigur că au! Prima și cea mai importantă dintre acestea este robotica Dacă încerci să antrenezi un braț artificial pentru a transporta o vază de la o masă la alta, inevitabil te vei confrunta cu aceleași probleme cu care se confruntă copilul care merge la începutul acestui capitol: nu putem oferi un set de date cu rotațiile corecte ale artificialului balamalele brațului, dar putem spune doar că s-a rupt dacă o vază În plus, chiar dacă vasele de antrenament nu se sparg, este totuși evident că nu vom putea face milioane de încercări în viața reală, adică trebuie să învățăm repede Același lucru este valabil, de exemplu, pentru conducerea mașinilor: este imposibil să spui exact unde să rotești volanul în orice moment, poți spune doar că nu trebuie să te lovești de nimic Prin urmare, nu este de mirare că sarcinile de robotică au fost întotdeauna în centrul învățării prin întărire, iar una dintre primele și cele mai clasice sarcini ale învățării prin întărire este sarcina de a echilibra un stâlp pe o platformă [ , ] Capitolul Aceste probleme diferă de cele pe care le-am considerat până acum prin faptul că nu numai că stările sunt continue în ele (în jocurile A/ari erau și prea multe stări pentru a fi numărate), dar și acțiunile, balamaua sau volanul pot fi rotiți în orice unghi Prin urmare, aceste probleme de obicei nu folosesc învățarea TD și învățarea Q, care s-au dovedit a fi atât de utile pentru o varietate de jocuri, ci alte metode În special, metoda centrală de învățare prin consolidare în robotică este coborârea gradientului de politici [ ] Ideea este foarte simplă: considerăm o strategie r care efectuează o acțiune a în funcție de starea curentă s și de parametrii proprii Ѳ, a ~ | h; Ѳ) Vrem să maximizăm o anumită funcție obiectiv J, de exemplu E [T*n] deoarece recompensele depind de strategie și este stabilită parametric, rezultă că funcția obiectiv este o funcție a lui Ѳ Să nu construim nici un model de mediu, ci doar să optimizăm direct funcția obiectiv în raport cu θ folosind coborârea gradientului: calculați V# ( ) și deplasați-vă în direcția corectă La prima vedere, se pare că acum nu putem calcula gradientul V# ( ) analitic, așa cum făceam înainte: aceasta este o funcție prea complicată, deoarece acum ( ) ascunde o cale lungă pentru a aplica strategia r( ) ) de-a lungul întregii episoade, sau chiar mergând la infinit O posibilă ieșire este calcularea gradientului aproximativ, numeric - să variam puțin fiecare dintre parametri și să calculăm unde este un vector de zerouri cu o unitate în componenta & Acest lucru este lent (trebuie să calculați ( + cu^) separat pentru fiecare parametru) și foarte inexact, dar funcționează bine în unele aplicații Dar există o cale mai bună! Să aruncăm o privire mai atentă la funcția ( ) Pentru simplitate, vom presupune că avem un proces Markov de luare a deciziilor într-o etapă, începem într-o stare s E S cu probabilitate po(s), iar după o acțiune a E A obținem o recompensă Apoi: D ) = E Ea I s-, e) Ras, u sES aEA = Epo(s) E L"V(Ia I s; ) sES aEA Să aplicăm un truc simplu - rețineți următoarea egalitate: Vb) r(a I s-v) = r(a | s; )= ^(g | s; ) VV log r(a | s; ) r[a I s; Și) Înseamnă că: V D ) = Epo(s) E RiEa I s; >)VVlog tt( )d ' În învățarea automată, teorema lui Bayes ne permite să obținem o distribuție posterioară din probabilitate, care este de obicei dată de structura modelului și distribuția anterioară, care exprimă ideile noastre despre lumea din jurul modelului și apoi, dacă se dorește , faceți predicții bayesiene, integrând peste toate valorile posibile ale parametrilor Ѳ Din punctul de vedere al rețelelor neuronale, este important ca cu ajutorul teoremei lui Bayes să putem construi cu ușurință modele probabilistice complexe din cele simple, rafinând distribuția parametrilor ascunși În plus, prin alegerea unei distribuții prealabile, este ușor să efectuați regularizarea Mai mult, putem introduce cu ușurință modele cu variabile latente (ascunse) și le putem antrena cu algoritmul EM sau metode variaționale, așa cum vom vedea în acest capitol Problema estimării bayesiene a variabilelor latente continue este ceva asemănător cu o problemă de reducere a dimensionalității: trebuie să restaurați bine variabilele latente, iar acestea devin caracteristici importante care descriu pe scurt fiecare obiect din eșantionul de antrenament Poate părea că toate aceste mașini bayesiene nu sunt atât de importante pentru noi și ne putem descurca cu cea mai mare probabilitate În capitolul , ne-am uitat la exemplul de aruncare a monedelor: desigur, dacă există una sau două aruncări de monede, fără metode bayesiene va fi o prostie, dar după o mie de aruncări, nu contează care a fost distribuția anterioară Și când vorbim despre rețele neuronale profunde, seturile de date nu sunt nici măcar mii, ci milioane și miliarde - câți pixeli sunt în ImageNet? Totuşi, problema este că rolul distribuţiei a priori este determinat nu de numărul total de puncte Ajata, ci de numărul de puncte pe fiecare parametru liber al reţelei Vjata/Tvoct£ei Și, în realitate, se dovedește că, de îndată ce Adata crește, vrem imediat să ne apropiem de el și -/Vmojep, astfel încât Teorema lui Bayes și rețelele neuronale face modelul mai expresiv Rețelele convoluționale care sunt antrenate pe ImageNet pot avea zeci de milioane de parametri Deci, de fapt, învățarea automată se află tot timpul în "zona de relevanță" a metodelor bayesiene În acest moment, un cititor pregătit în mod rezonabil ar putea crede că în continuare vom vorbi despre cum să adăugați distribuții anterioare la o rețea neuronală și despre cum să facem inferență bayesiană într-o rețea neuronală Acesta este un subiect cu adevărat demn de remarcat și vom reveni la el în secțiunea Abordarea bayesiană poate face posibilă nu numai obținerea ponderilor în minimul local al funcției de eroare, ci și estimarea varianței acestora, precum și întreaga distribuție posterioară p(w | D) Mai mult, în Secțiunea vom vedea că această abordare oferă o viziune foarte diferită asupra abandonului, explicând-o din partea bayesiană Dar, în cea mai mare parte, vom vorbi în continuare despre lucruri complet diferite Scopul acestui capitol este de a încerca să îmbunătățească tehnicile utilizate în inferența bayesiană, în special aproximările variaționale la distribuții posterioare complexe, folosind "magia învățării profunde" Vă recomandăm aici lucrarea originală despre autoencodere bayesieni [ ] și o introducere recentă detaliată a subiectului [ ] ca surse primare Aici există o diferență semnificativă în formularea problemei în comparație cu tot ceea ce am făcut înainte În învățarea automată, modelele au adesea o semnificație probabilistică: antrenăm nu doar un fel de suprafață de separare, ci și distribuția p(x), care arată cât de probabilă, conform modelului antrenat, apariția unui anumit punct ca punct de date Pentru a putea număra p(x) este suficient pentru a rezolva, de exemplu, o problemă de clasificare: pentru a recunoaște cifrele scrise de mână, antrenăm zece modele de pq(x), pi(x), ,re(g) ): oricare este mai probabil, vom da acel număr ca răspuns Și în Secțiunea , am vorbit despre faptul că de multe ori doriți nu numai să recunoașteți obiectele deja luate de undeva, ci și să le creați singur De exemplu, am dori să învățăm nu numai să recunoaștem numerele scrise de mână pe baza setului de date MNIST, ci și să le generăm noi înșine, "scriem de mână" Sau generați picturi în stilul recunoscut al unui artist celebru, ca în serviciile DeepArt și Prisma Sau dar aici lăsăm loc cititorului să dea frâu liber propriei imaginații Pentru a face acest lucru, trebuie să învățați nu doar să calculați distribuția p(x), ci și să eșantionați din ea, să generați puncte conform distribuției p(x) Această problemă a fost rezolvată, desigur, în învățarea Bayesiană clasică: există, de exemplu, o zonă mare de metode Monte Carlo bazate pe lanțuri Markov (lanțul Markov Monte-Carlo), care sunt concepute doar pentru a învăța cum să eșantioneze din distribuții pe care știm doar să le calculăm Nu vom aprofunda acum acest subiect și vom trimite cititorul la manualele corespunzătoare [ , , ], dar noi înșine vom spune doar că aceste metode pentru distribuții foarte complexe (cum ar fi, de exemplu, distribuția fețelor umane în spatiul fotografiilor) functioneaza extrem de bine lent sau nu functioneaza deloc Capitolul În acest capitol, vom antrena modelul pentru a eșantiona (genera puncte) dintr-o distribuție complexă folosind rețele neuronale, care vor juca aici rolul unei cutii negre pentru aproximarea oricărei funcție - în acest caz, doar densitatea distribuției dorite Mai exact, rețelele neuronale vor fi antrenate să transforme o distribuție simplă, de obicei normală cu parametri standard, în cea de care avem nevoie Pentru a descrie pe scurt capitolul următor din punct de vedere matematic, vom lua în considerare o metodă de construire a aproximărilor la distribuții complexe, în care aproximarea este luată dintr-o anumită clasă de funcții, iar apoi vom începe să înlocuim rețelele neuronale ca această clasă a funcţiilor Rezultatul va fi modele foarte bine motivate ideologic pe care mulți cercetători le văd ca viitorul învățării profunde Vă vom avertiza imediat că nu va fi ușor - acesta este probabil cel mai dens capitol matematic din întreaga carte Pe de o parte, la prima lectură, probabil că puteți sări peste restul capitolului și, în practică, nimeni nu vă va obliga încă să utilizați aceste metode specifice Dar, pe de altă parte, acest capitol poate fi considerat un fel de test de turnesol: dacă îl poți citi și înțelege, nu ar trebui să ai nicio problemă să citești cele mai recente articole despre învățarea profundă, iar scopul principal pe care ni l-am stabilit în această carte este acela de a putea fi considerat realizat Atunci du-te! algoritmul EM Sărmanul Carlson! Nu-l invidiezi Algoritmul îl va face să mănânce cinci sute de chifle Toate la unu! Și cu siguranță va muri de lăcomie V Parondzhanov Algoritmi prietenoși pe înțelesul tuturor Pentru a aplica metode bayesiene la rețelele neuronale (mai precis, așa cum vom vedea mai jos, dimpotrivă, rețelele neuronale la metodele bayesiene), trebuie mai întâi să înțelegeți cum funcționează în general aceleași metode bayesiene Începem prin a oferi o rațiune bayesiană pentru una dintre principalele metode de învățare clasică nesupravegheată, algoritmul de așteptare-maximizare, denumit în mod obișnuit algoritmul EM Ideea algoritmului EM este destul de simplă Imaginați-vă, de exemplu, o problemă de grupare pe un plan obișnuit R : aveți un set de puncte și doriți să le împărțiți în submulțimi, astfel încât în fiecare dintre ele punctele să fie "asemănătoare" între ele, adică să fie aproape unul de celălalt, iar punctele din submulțimi diferite ar diferi cât mai semnificativ posibil, adică ar fi departe în plan algoritmul EM Problema grupării, desigur, poate fi rezolvată în multe moduri diferite [ , ], iar EM nu va fi întotdeauna cea mai bună (cel puțin este destul de lentă în comparație cu altele), dar această metodă este aplicabilă multor alte probleme, iar gruparea este o modalitate bună de a o ilustra Pentru a aplica EM la clustering, trebuie să ne imaginăm toate datele despre soluția problemei de clustering pe care le-am putea avea În setul complet de date, fiecare punct va fi scris care sunt coordonatele sale (știam deja acest lucru) și cărui cluster ar trebui să aparțină - și aceasta este exact informațiile pe care trebuie să le obținem În această reprezentare, un caz de testare este perechea (xi,Zi), unde Zi indică cărui grup îi aparține acest punct și nu cunoaștem valorile Observați diferența: în modelul "normal", există întotdeauna greutăți sau parametri pe care încercăm să-i antrenăm, dar de obicei sunt relativ puțini, mai puțini decât datele, și aici vedem că există o întreagă variabilă pentru fiecare punct în date În astfel de situații, când unele variabile ne sunt cunoscute în datele disponibile, iar unele sunt absente, algoritmul EM ne vine de obicei la îndemână În plus, pentru a aplica algoritmul EM, trebuie să faceți câteva ipoteze probabilistice despre modul în care au fost generate aceste date cu variabile ascunse În cazul grupării, pur și simplu, trebuie să faceți presupuneri cu privire la forma clusterelor Să luăm în considerare cel mai simplu caz, când punctele nici măcar nu se află pe un plan, ci pe o dreaptă, și presupunem că sunt generate de două clustere sub formă de distribuții normale; mai mult, să presupunem că varianţa acestor distribuţii este aceeaşi şi este egală cu c: xi ~ A/\xi; u , £(Ѳп) - Să estimăm diferența dintre aceste două cantități În continuare, vom conduce un lanț destul de lung de egalități, pe care îl vom comenta pe parcurs: Capitolul Orez Algoritmi de minorizare-maximizare (prin inegalitatea lui Jensen: logaritmul este o funcție convexă, iar așteptarea matematică este o transformare liniară, deci \og~Ep^f(x) > log f(x), și luăm așteptarea din distribuția p(z | X, ѲnY) (Acum să punem p(X | Ѳn) sub integrală și sub logaritm - z nu participă la ea, deci pentru așteptarea matematică față de z este doar o constantă) CMlog I z,e)P(z și g) \ Eu fp)p(g I dz Deci am prins asta În plus, este ușor de demonstrat că (Ѳp,Ѳp) = £(Ѳp) - Cu alte cuvinte, am găsit o estimare mai mică pentru funcția £(Ѳ), care este tangentă, se dovedește a fi egală cu £ (Ѳ) în punctul Ѳp Aceasta înseamnă că, în cadrul algoritmului EM, am găsit mai întâi o estimare mai mică pentru funcția de probabilitate, care se referă la probabilitatea în sine în punctul curent, apoi am mutat acolo unde este maximă; desigur, în acest caz, funcția de probabilitate în sine va crește și ea, pur și simplu nu are încotro (Fig ) O astfel de schemă generală de optimizare, în care estimarea inferioară pentru funcția optimizată este maximizată, este uneori numită și algoritmul MM, din cuvintele Minorization-Maximization Rămâne doar să înțelegeți că este posibil să maximizați Q Și din nou, va trebui să îndurați lanțul de egalități: Ѳп+ = arg max/( , Ѳп) = ѳ Aproximații variaționale (rescrieți după formula de mai sus) = arg max (/( ") + fp(z \ Х,Ѳп) log ( d dz| = • • • Ѳ l Jz \P(XI Ѳp)р(г IX,Ѳp) JJ (să aruncăm de sub arg max tot ceea ce nu depinde de Ѳ - acest lucru nu va schimba punctul în care se atinge maximul) = arg max ( [ p(z | Х,Ѳп) log (p(X | z, )p(z | )) dzl = Ѳz) (vom transforma din nou produsul p(x | z)p(z) în probabilitatea comună p(x,z)) = arg max = arg max {Q( , n)} & [Jz J ѳ Iată algoritmul EM Rețineți că, pentru ca algoritmul EM să funcționeze, în principiu, este suficient să găsiți pur și simplu Ѳn+i pentru care Q( n+i, n) > Q( n, Ѳp): pentru ca £(Ѳ) să crește, nu este necesar să găsiți exact maximul estimării sale inferioare, este suficient să treceți acolo unde estimarea inferioară crește pur și simplu cu cel puțin puțin O astfel de schemă se numește algoritm EM generalizat (EM generalizat) Aproximații variaționale Bach a decis că variațiile ar fi probabil cele mai potrivite aici, deși încă credea că aceasta era o sarcină ingrată Cu toate acestea, aceste variații, ca tot ceea ce a creat el la acea vreme, s-au dovedit a fi magnifice Contele a numit acest ciclu al său variatii Nu se putea bucura de ele în niciun fel și multă vreme, de îndată ce îi începea insomnia, obișnuia să spună: "Dragă Goldberg, cântă-mi una dintre variațiile mele" I Forkel Despre viața, arta și operele lui Johann Sebastian Bach Următoarea idee importantă a inferenței bayesiene pe care trebuie să o înțelegem și pentru care, de fapt, sunt concepute metodele descrise în acest capitol, este aproximările variaționale Considerarea lor va fi foarte asemănătoare cu ceea ce am vorbit despre algoritmul EM și putem discuta din nou toată această situație cu parametri ascunși dintr-un unghi ușor diferit Ne aflăm încă în aceeași situație generală ca în secțiunea anterioară, unde algoritmul EM ne-a ajutat: să presupunem că setul de date X = a fost generat de un proces în două etape cu parametrii modelului : mai întâi de la Capitolul o distribuție a priori p(z | Ѳ) a generat vectorul variabilelor ascunse z, iar apoi din distribuția condiționată p(x | zfî) a generat punctul x însuși Cunoaștem distribuțiile p(z | Ѳ) și p(x | z, ), dar distribuția p(x | Ѳ): p(x I t) = ^p(x II )dz prea complex pentru noi, nu îl putem calcula direct Algoritmul EM a fost aplicat în situațiile în care putem calcula fie analitic, fie numeric distribuția variabilelor ascunse pentru parametrii fiși p(z | x, t); de obicei, poate fi calculat folosind teorema lui Bayes: p(x\z,e)p(z\e) p(a:| ) Apoi calculăm această distribuție la pasul E al algoritmului EM, obținem estimările așteptărilor z, maximizăm funcția obiectiv la pasul M față de Ѳ cu estimări fixe și așa mai departe, ca în secțiunea anterioară Dar dacă nici măcar distribuția p(z | x, Ѳ) nu poate fi calculată? Acesta nu este un caz atât de rar: imaginați-vă, de exemplu, că distribuția p(x | zfî) este dată de rețeaua neuronală cu care suntem obișnuiți Chiar și o rețea neuronală obișnuită cu două straturi cu un nivel ascuns neliniar este o distribuție atât de complexă încât pur și simplu luând-o și înmulțind-o cu distribuția anterioară p(z | ) nu va funcționa În modelarea matematică, există un răspuns universal la toate aceste dificultăți: dacă structura unui obiect este prea complexă, atunci trebuie doar să o aproximați folosind un obiect mai simplu Esența metodei variaționale în acest caz este că căutăm o aproximare mai simplă între o anumită clasă de funcții (distribuții) și încercăm să găsim un element din această clasă mai simplă care este cel mai asemănător cu elementul "complex" pe care o aproximăm Dacă această clasă este dată parametric, atunci vom avea noi parametri variaționali, conform cărora, sperăm, vom putea optimiza aproximarea Cu toate acestea, una dintre caracteristicile cheie ale metodei pe care o luăm în considerare acum este tocmai că căutăm o aproximare deloc parametrică Totuși, în general, sensul a ceea ce se întâmplă este exact același: aproximăm distribuția complexă cu o formă mai simplă, alegând distribuția din familia mai simplă care aproximează cel mai bine distribuția complexă "Asemănarea" poate fi determinată de distanța Kullback-Leibler: KL(p|k) = Y = Pentru a explica cum funcționează totul în realitate, să ne întoarcem mai întâi la una dintre punctele de vedere ale algoritmului EM: fie X variabilele observate și Z fie Aproximații variaționale latent Algoritmul EM presupune că putem calcula densitatea distribuției comune p(X, Z | Ѳ), dar dorim să maximizăm p(X | Ѳ) Ele sunt legate, de exemplu: p(X,Z| )=p(X| MZ|X, ), care înseamnă lnp(XI Ѳ) = lnp(X, ZI Ѳ) - lnp(ZI X, Ѳ) Considerăm o nouă distribuție q(Z), care va servi drept aproximare Să o adăugăm doar mecanic la formulele noastre Luați în considerare formula de mai sus și luați în părțile sale din stânga și din dreapta așteptările pentru distribuția q(Z): I q(Z) Inp(X I >)dZ = / g(Z) lnp(X, Z | )dZ - / q(Z) lnp(Z | X, )dZ ZZJz Ho lnp(X | ) nu depinde de Z, deci așteptarea din stânga este egală cu lnp(X | ) în sine: pr(X | ) = [ Q(Z)lnp(X,ZI )dZ - [ g(Z)lnp(ZIX, )dZ Jz Jz Și acum în dreapta, să adunăm și să scădem q(Z) În q(Z) sub integrală (da, pare o magie de neînțeles - liniște, acum totul va deveni clar); ca rezultat obținem: logp(XI ) = Y g(Z) l ,^ lz = £(g, ) + KL(g||p(Z|X, )), unde £(g, ) = fz q(Z) În dZ este ceva funcțional deja al p(X,Z | ), al distribuției comune, care, prin presupunerea noastră, este destul de simplă Uite ce avem: KL(g||p(Z | X, )) este distanța Kullback-Leibler; este întotdeauna nenegativ și este egal cu zero numai dacă q = p Prin urmare £(q, ) este o limită inferioară a lp(X | ) Și în algoritmul EM, se dovedește că pentru curentul Ѳp: • la pasul E, maximizăm £(ppѲp) în raport cu q pentru un Ѳp fix; maximul este atins când KL(g||p(Z | X, )) = , adică când q(Z) = p(Z | X, n); • La pasul M, fixăm q(Z) și maximizăm estimarea de probabilitate mai mică £(q, ) față de , obținând n+i Estimarea inferioară £(q, ) este unul dintre cele mai importante obiecte din teoria aproximărilor variaționale Se numește limita inferioară variațională (variațională Capitolul limita inferioară, limită inferioară dovezi, ELBO) Și metodele variaționale în sine funcționează astfel: să presupunem că dorim să maximizăm p(X) cu variabile ascunse Z, iar p(Z | X) este o distribuție complexă Să căutăm o aproximare a acestuia sub forma unei distribuții a unei structuri mai simple q(Z) Apoi din același motiv pr(X) = £(q) + KL(q\\p(Z | X)), unde £( - M ) +const= = ~ A Z + (miAn - (E [z \ - M )) + const Uite - ca o aproximare, am obținut o distribuție normală și s-a dovedit de la sine, fără participarea noastră! Selectarea unui pătrat complet: Qн(^l) = A/\z I mіДц ), unde mi = - Af Ai (E [z ] - М )- De asemenea, J ) = Af(z I m ,A ), unde m = M - A A (E [^] - mі) - Aici E [zi] - mi, E [z ] - m și trebuie doar să rezolvăm sistemul; se dovedește, desigur, m - [i Capitolul Orez Aproximații variaționale la gaussianul bidimensional Să comparăm acum acest lucru cu marginalul obișnuit (proiecție): în Fig și am prezentat aproximarea variațională rezultată, iar în fig , b - produsul proiecțiilor pe axele X și Y Vedem aici același efect pe care l-am discutat în secțiunea (rețineți Fig ) pentru diferite opțiuni pentru distanța Kullback-Leibler: în timp ce produsul marginalilor dă o distribuție largă de "acoperire", aproximările variaționale selectează un vârf specific, care este de obicei de preferat pentru problemele de învățare automată Un exemplu specific care este important pentru analiza noastră ulterioară este analiza componentelor principale (PCA) Acesta este cel mai simplu model cu variabile latente continue; este posibil să fi auzit despre asta în statistici "obișnuite" sau cursuri de învățare automată Scopul PCA este de a reduce dimensiunea pierzând cât mai puține informații despre setul de date; formal, aceasta înseamnă că încercăm să găsim un subspațiu de dimensiune inferioară, proiecția pe care păstrează cât mai mult posibil din varianța setului original de puncte Din punct de vedere algoritmic, PCA obișnuită este redusă la diagonalizarea matricei de covarianță empirică a setului de date, adică la calculul vectorilor proprii Dar, deocamdată, suntem interesați de viziunea bayesiană a ceea ce se întâmplă în Componentele principale Deci, să fie obiectele noastre inițiale într-un spațiu de dimensiune D și variabile latente într-un spațiu de dimensiune d: X e Z e Rd Să scriem distribuțiile: t t p(X, ZI Ѳ) \u d Y p (xi, y I Ѳ) \u d PrCi I y, Ѳ) p (y | Ѳ) I= I= Vom presupune că variabilele latente zi sunt luate dintr-o distribuție normală în jurul zero, iar variabilele observate reale sunt obținute din ele printr-o transformare liniară cu zgomot distribuit normal: Aproximații variaționale T p(X,ZI ) = \ n + wZi, ), ) = £(φ, Ѳ) = I J q(zi | хі,ф) Această funcție trebuie maximizată în raport cu φ și ϲ Cum să facem asta dacă nici măcar nu putem calcula integrala, adică nici măcar nu putem calcula funcția în sine pe care o optimizăm? Pentru a optimiza, trebuie să puteți calcula fie gradientul, fie cel puțin gradientul stocastic Este dificil să calculezi gradientul obișnuit, cu siguranță trebuie să poți calcula funcția Dar stocastic - vă rog De exemplu, pentru o funcție de forma f(x) = gradientul stocastic poate fi calculat prin alegerea termenului al meu la întâmplare; în același timp, totul devine de n ori mai rapid, iar gradientul stocastic va fi în continuare o estimare imparțială a prezentului, adică așteptarea va obține ceea ce aveți nevoie În mod similar, dacă următoarele sunt adevărate: /(x) = Ep(îz)[/i(a:,t/))] = Y h(x,y)p(y)&y, atunci se poate genera pur și simplu un punct din distribuția p(y) și se poate calcula derivata ^dx ^ > unde punctul YO este generat din distribuția p(y) Și obținem din nou estimarea imparțială: Jp( Vdh^,y) dy = A Y p(y)h(x,y)dy = Este posibil, desigur, să se estimeze mai bine, cu o varianță mai mică, dacă luăm un eșantion de mai multe puncte și facem o medie a derivatelor obținute în aceste puncte ca gradient stocastic Dacă vedem o integrală reprezentând așteptarea unei anumite funcții, putem înlocui această așteptare cu un eșantion aleatoriu cu distribuția corespunzătoare Și acum puțin mai complicat: lasă distribuția anticipată să depindă de x: = y h(x,y)p(y I x)dy Ne diferențiam ca produs, ce putem face: d£ dx "dh(x,y) - dp(y\x)" -^-p(y\X) + h(X,y)-^- di/ Prima integrală poate fi acum evaluată exact în același mod ca mai sus - generați un eșantion, înlocuiți o derivată parțială, totul este bine Dar acum există o problemă cu al doilea: nu există nicăieri așteptări matematice Dar aici așa-numitul truc derivat de log vine în ajutor: dacă doriți să reprezentați dr^x>> ca p(y | x) înmulțit cu ceva, atunci îl puteți reprezenta pur și simplu în această formă: Autoencoder variațional dr(y I x) dlogpQ/ | X) -^^=p(y\x) - Ca rezultat, se dovedește că integrala mare poate fi rescrisă după cum urmează: f , I \\dh(x,y) ,t A '//•*■ j > H t H H U M M U ?*// f S ^ x ' \ \ \ / III / II / / / / / (OtocBooooooo (ea " mgsyoooooooooooooooooooooooooooooooh gyooooh ZIIOOOO ZIIOOOO ) / // ' // /zzzzzzo / Orez Exemple de cifre scrise de mână eșantionate din diferite părți ale distribuției factorilor latenți Ieșirea din primul strat este acum completată cu eticheta valorii curente și sunt alimentate împreună la decodor: zyjnean = tf concat([z mean, y], ) zy = tf concat([z, y], ) dec layer l = tf nn tanh(tf add( tf matmul(zy, w["w gener"]['hl']), w["b gener"]['bl'])) mean dec layer l = tf nn tanh(tf add( tf matmul(zy mean, w["w gener"] ['hl']), w["b gener"]['bl'])) Orice altceva este absolut neschimbat: eroarea este încă suma erorii autoencoder și a erorii de pe stratul ascuns, doar acum se dovedește că distribuția factorilor ascunși este comparată cu normalul "separat" pentru fiecare clasă, iar rezultatul este o distribuție normală standard în fiecare clasă (vezi Fig - nu arată nicio diferență între diferitele clase) Dar acum puteți face o generație condiționată: în Fig prezintă exemple de rezultate de eșantionare cu diferite etichete de condiții Nu există o imagine generală bidimensională aici, ca în Fig , dar încă "călătorește" prin spațiul factorilor latenți, care sunt reprezentați în fiecare rând din Fig toate duc la numere rezonabile generate tot timpul Autoencoder variațional , , - , - , Orez Reprezentarea B a distribuției cifrelor scrise de mână în setul de date MNIST într-un autoencoder variațional condiționat Epoca - , , , , Acum popularitatea autoencoderelor variaționale și a diferitelor variante ale acestei arhitecturi continuă să crească, concurând cu succes cu AAE pentru titlul de cel mai bun model generativ bazat pe rețele neuronale Desigur, au existat și extensii și noi variante de autoencodere variaționale De exemplu, în [ ], este construită o construcție a așa-numitului autoencoder variațional cu pierderi (VAE cu pierderi), în care controlul asupra structurii reprezentării latente este utilizat pentru a distinge părțile importante și neimportante ale obiectului de intrare (de exemplu, pentru a separa obiectele afișate în fotografie, de textura de fundal) și apoi "uitați" părțile neimportante la apariția ulterioară Și în [ ] sunt construite autocodificatoare variaționale neparametrice, adică VAE-uri cu distribuții a priori neparametrice Aceasta înseamnă că pot crește în complexitate pe măsură ce setul de date de antrenament devine mai complex și mai mare, iar această idee este dezvoltată în continuare în VAE ierarhice neparametrice care sunt capabile să antreneze structuri ierarhice (de fapt, arbori) de concepte și să genereze noi exemple din fiecare nod a arborilor rezultați Separat, aș dori să notez lucrarea [ ], care oferă o vedere generală a autoencoderilor variaționali și adversari Se pare că ambele, într-un fel, minimizează divergența Kullback-Leibler dintre distribuția adevărată și cea model, doar în direcții diferite și, prin urmare, pot fi considerate ca două faze diferite ale algoritmului clasic veghe-somn, care a fost dezvoltat în anii pentru antrenarea rețelelor neuronale fără un profesor [ ] și fără participarea lui Geoffrey Hinton, nu s-ar fi putut face acolo Deși nu vom intra în detaliile acestor și altor extensii moderne ale ideilor rețelelor neuronale bayesiene, nu există nicio îndoială că viitorul învățării profunde se află cel puțin în parte din astfel de metode Capitolul Orez Exemple de cifre scrise de mână eșantionate din diferite părți ale distribuției factorilor latenți printr-un autoencoder variațional condiționat Rețele neuronale bayesiene și abandon Lina Oh, de ce m-ai prins în brațe și m-ai târât la fereastră? Vrei să mă dai afară? Hodotov Nu, ai milă Te iubesc atât de mult! A Avercenko La răscruce Acum să revenim la inferența bayesiană asupra rețelelor neuronale adecvate, pe care am anunțat-o în prima secțiune a acestui capitol; această secvență de prezentare a fost necesară deoarece pentru inferența în rețelele neuronale bayesiene (rețelele neuronale bayesiene) vom folosi din nou în mod activ aceeași idee de aproximări variaționale, care a fost explicată în secțiunea și apoi extinsă cu aproximatori sub formă de rețele neuronale Ca surse principale privind inferența bayesiană modernă în rețelele neuronale, recomandăm [ , , , ] și disertația recent publicată a lui Yarin Gala [ ] Pentru rețelele neuronale, inferența bayesiană arată practic exact la fel ca pentru orice alt model probabilistic Vrem să găsim distribuția posterioară: p(w|n) = ^P|^Wap(D|wMw), Rețele neuronale bayesiene și abandon unde am notat cu w vectorul tuturor greutăților rețelei și cu X am notat datele disponibile și apoi am găsit distribuția predictivă: p(x | D) I p(x | w)p(w | D)dw oc / p(x | w)p(D | w)p(w)dw Jw Jw În special, în cele ce urmează, pentru certitudine, vom vorbi de o problemă de clasificare când D = (X, Y) este format din perechi de forma (x, y), și căutăm o distribuție posterioară: și distribuția predictivă: p(y eu p(y | w, w)p(w p(y | x,w)p(Y | X,w)p(w)dw În rețelele neuronale, desigur, p(w | X, Y) are o formă foarte complexă și este imposibil să găsim această distribuție analitic - sunt necesare aproximări Să începem cu o scurtă prezentare istorică De-a lungul cărții, am fost convinși din nou și din nou că marea majoritate a ideilor folosite în rețelele neuronale moderne au apărut cu foarte mult timp în urmă (după standardele învățării automate, desigur): rețelele profunde au fost antrenate încă din anii , arhitecturile convoluționale sunt cunoscute și aplicate în practică de la sfârșitul anilor , LSTM a fost dezvoltat în anii și așa mai departe Sub forma unei idei de a adăuga distribuții anterioare la rețelele neuronale și de a încerca să obțineți nu o estimare, ci o distribuția posterioară, a apărut în prima jumătate a anilor , în lucrările unor cunoscuți statisticieni și experți în învățarea automată Radford Neal [ ] și David McKay [ ] Greutatea anterioară a fost de obicei aleasă pentru a fi normală, p(w) = și principala problemă a fost, ca întotdeauna în acest caz, cum se face inferența În teza lui Neil [ ], derivarea sa bazat pe metodele Monte Carlo ale lanțului Markov (MCMC) Monte Carlo Și, de exemplu, în cartea lui Christopher Bishop [ ], pe care o recomandăm din toată inima ca fiind una dintre cele mai bune cărți despre inferența bayesiană, capitolul despre rețelele neuronale culminează cu o descriere a unui algoritm de inferență bayesian bazat pe aproximarea laplaciană, care ne propunem să antrenăm parametrii aproximării gaussiene la distribuția posterioară În acest fel, puteți obține o distribuție posterioară aproximativă, optimizați hiperparametrii și chiar ajungeți la distribuția predictivă, îmbunătățind semnificativ rezultatele care arată rețele neuronale "clasice", superficiale; dar pentru rețelele moderne de adâncime, toate aceste argumente nu mai sunt pe deplin aplicabile Capitolul Inferența bayesiană modernă în rețelele neuronale se bazează, așa cum am menționat deja, pe aproximări variaționale Ca și în Secțiunea , introducem o nouă distribuție q(w) și încercăm să aproximăm adevărata distribuție posterioară p(w IX, Y) reducând la minimum distanța Kullback-Leibler dintre ele: KL (g(w)||p(w IX, Y)) = dw= [ g(w)log -?dw + const = p(w | X, Y) J p(w)p(Y | X, w) = - Y q(w) logp(K | X, w)dw + Y q(w) log + const = = - Y q(w) logp(K | X, w)dw + KL (q(w)\\p(w)) + const = N f = / ^(w)l°gp(^ | fw(xi))dw + KL (g(w)||p(w)) + const, i=i J unde termenii independenți de q(w) sunt ascunși în const (nu participă la minimizare), iar în ultima linie probabilitatea p(Y | X, w) este descompusă într-un produs peste punctele de date Pentru prima dată, o astfel de minimizare a fost încercată, din nou, în prima jumătate a anilor , în [ ], unde a fost folosită o presupunere foarte puternică despre forma aproximării S-a presupus acolo că q(w) este complet descompus într-un produs al distribuțiilor normale asupra greutăților individuale: q(w) = P[ = P[ N\w I fiw,aw) wew wew Chiar și acest lucru s-a dovedit a fi dificil: numai pentru rețelele cu un nivel ascuns rezultatul poate fi obținut analitic, ceea ce s-a făcut în [ ] Dar, în orice caz, metoda care nu ține cont de corelația dintre ponderi nu dă cele mai bune rezultate, iar încercările de a adăuga expresivitate aproximării [ ] conduc la faptul că algoritmii de inferență devin pătratici pe numărul de greutăți în rețea - pentru rețelele neuronale uriașe moderne, aceasta este ca moartea Există două dificultăți principale cu problema de minimizare inițială: în primul rând, fq(w)p(yi I fw(xi))dw nu poate fi calculat în niciun fel dacă rețeaua are mai mult de un nivel ascuns și, în al doilea rând, se dovedește că chiar și pentru a calcula funcția, pe care o minimizăm, trebuie să luăm suma peste întregul set de date A doua problemă nu este atât de greu de rezolvat: în loc să însumăm toate N exemple de antrenament, să selectăm un subset aleatoriu S de mărimea M ( :) = J\f(x | /tsr ), atunci q(Ѳ, e) = p + ae, u(b) = λdb | OD) Acum, la fel ca mai sus, obținem o estimare imparțială: D U f(x)Pe(x)dx " De exemplu, pentru o distribuție normală x = p + ae, și obținem: Y f(x)pe(x)dx = Y f'(x)pe(x)dx, D [f(x)pe(x)dx = [f'(x) pg(x)dx Și acum putem înlocui această estimare înapoi în funcția obiectiv £(w) Să reparam: £(c) = "DE [qg(w) \ogp(yi \ fw(xi))dw + KL (q(w)\\p(w)) = = "D $ [P(e)l°gp(?/i I L,(e,e)(xg))c e + KL(g(w)||p(w)), ieSJ și apoi înlocuim estimarea stocastică imparțială cu integrala: РѲ) = -^^logp^yi I fg( te)(xi)) + KL (q(w)||p(w)) ies Astfel, un pas al algoritmului pentru minimizarea discrepanței dintre qo(w) și p(w I X, Y) va arăta astfel: Capitolul • primul eșantion M exemple aleatoare din setul de antrenament de mărime N și M variabile aleatoare ~ p(e); • apoi calculați actualizarea ponderilor: D = ^ o&P(Yi I (Ѳ, e;)(xi)) + D Kk, Y('"')|p("')) ■ ies Acest algoritm, actualizând treptat parametrii Ѳ ai distribuției qg (w), va aduce această distribuție cât mai aproape de adevărata distribuție posterioară p(w I X, Y) - exact ceea ce ne-am dorit să facem Apoi va fi posibil să se facă predicții bayesiene folosind metoda stocastică obișnuită: eșantionați mai multe seturi diferite de greutăți wr ~ qg(w) și mediați rezultatele: R qe(y I := x,wr) G= Dar asta nu este tot - distracția abia începe! Să luăm ca exemplu o rețea neuronală tipică complet conectată cu un strat ascuns Are trei tipuri de parametri: matricea de greutate a stratului de intrare Wi, matricea de greutate a stratului ascuns W și vectorul termenilor liberi b, adică Ѳ = (ID, ID f) Să alegem ca qg(w) o familie specifică de distribuții, care arată astfel: • mai întâi luăm variabilele aleatoare binare ei și € , care sunt rezultatele aruncării independente a mai multor monede cu probabilități și p și eșantionați-le, obținând vectorii ei și D; • apoi construim matrici diagonale diag(ei) si diag(e ) din ele; • şi definiţi funcţia g(t,e) = (diag(ei)H^i, diag(e )Hz , b) Cu o astfel de alegere a funcției g, se dovedește că atunci când se calculează funcția obiectiv £( ) pentru minimizarea noastră, considerăm ieșirea rețelei neuronale ca și cum ar fi o întrerupere cu o probabilitate p± după primul strat și p dupa al doilea! Dacă alegem acum distribuții normale independente pe fiecare dintre ponderi ca distribuție anterioară p(w), atunci funcția obiectiv va fi proporțională cu următoarea valoare: irp(th I fg(e,e)(xi)) + MWI + MIW + Dz||b|| , ies adică, obținem că inferența obișnuită în rețelele neuronale cu abandon corespunde exact inferenței bayesiene în aproximarea variațională cu o astfel de familie de distribuții qK Dovada acestei afirmații și faptul că logр(Hz | corespunde funcțiilor obiectiv ionii în regresia convențională și problemele de clasificare sunt destul de simple Le lăsăm cititorului Rețele neuronale bayesiene și abandon Iată secvența Renunțarea a fost inițial o decizie inginerească, pentru o vreme a fost doar un truc care a permis rețelelor neuronale să funcționeze mai bine Desigur, oamenii au încercat înainte să dea explicații teoretice pentru fenomenul abandonului De exemplu, Jeffrey Hinton în prelegerile sale a vorbit despre modul în care abandonul este un fel de "medie bayesiană" a unui număr imens de modele diferite care diferă unele de altele în arhitectură: toate împart greutăți între ele și fiecare model este antrenat doar pe baza un singur mini-lot atunci când acea configurație specială de neuroni abandonați dispare Există un fel de legătură între inferența bayesiană și abandon în această explicație, dar numai după lucrările [ , ] citate mai sus, referitoare la , abandonului i s-a dat în sfârșit o justificare teoretică cu adevărat completă și satisfăcătoare * De ce este necesară această justificare? S-ar părea că abandonul funcționează bine O consecință importantă este că proporția de neuroni care au fost abandonați a fost inițial un număr fix Dar acum că am reformulat învățarea abandonului ca o maximizare variațională a limitei inferioare, putem optimiza cu ușurință și fracția de abandon: tot ce trebuie să facem este să reparăm celelalte ponderi și să maximizăm aceeași estimare cu fracția de abandon! Mai mult, acum îl putem selecta individual: pentru fiecare strat, pentru fiecare neuron, chiar și pentru fiecare conexiune între neuroni Această metodă se numește abandon variațional [ ] Procedura inițială de abandon nu prevedea deloc astfel de libertăți, nu era clar din aceasta cum probabilitatea abandonului putea fi ajustată automat În același timp, nu există teamă de recalificare - nu schimbăm distribuția anterioară, ci doar aproximăm tot mai precis distribuția posterioară Mai mult, s-a dovedit că abandonul variațional adaugă raritate rețelelor neuronale profunde, adică resetează marea majoritate a greutăților [ ]; acest rezultat, de altfel, a fost obținut în Rusia, în laboratorul lui Dmitri Vetrov Și o altă consecință importantă este că acum putem înțelege mai bine cum să facem o renunțare la modele mai complexe Luați în considerare, de exemplu, următoarea întrebare: cum să faceți o abandonare în rețelele recurente? În lucrarea binecunoscută [ ], a fost efectuat un studiu detaliat al metodelor de abandon pentru rețelele recurente Autorii au ajuns la concluzia că este necesar să se facă o abandonare numai între straturi și nu este nevoie să se facă un singur strat recurent între noduri (Fig ) Acest lucru a găsit foarte ca exercițiu și, de asemenea, referiți-vă la [ , ], unde pot fi găsite multe alte observații interesante despre această derivare Apropo, cam aceeași poveste s-a întâmplat la sfârșitul anilor cu un alt instrument de învățare automată bine-cunoscut, boosting: pentru o vreme "a funcționat", apoi a fost deja posibil să înțelegem ce se întâmplă cu adevărat în boosting și ce funcționalitate este în curs de optimizare Și sa dovedit imediat că, atunci când cercetătorii au înțeles funcționalitatea construcției inițiale de stimulare, au fost imediat capabili să o generalizeze, să o extindă la alte cazuri și să obțină multe modele noi și algoritmi de inferență Capitolul Orez Abandonarea în rețelele recurente: a - abandonul numai între niveluri [ ]; b - abandon peste tot [ ] b explicație logică: o abandonare între nodurile unui strat recurent distruge capacitatea de a face memorie pe termen lung, deoarece conexiunea cu neuronul anterior va fi foarte des ruptă și vrem doar să antrenăm dependențe cât mai lungi posibil Cu toate acestea, după ce a apărut justificarea teoretică a abandonului, s-a născut imediat ideea cum să o faci în interiorul stratului recurent [ ] Într-adevăr, să considerăm funcția fy = fg(p, e) în cazul unei rețele recurente (pentru simplitate, de obicei, dar aceasta poate fi extinsă și la LSTM și GRU) Acum depinde și de starea ascunsă, care, la rândul său, depinde de ponderile de la nivelul anterior prin funcția fa și așa mai departe: fy(ht) = D(A(^i,D(^i- D( -D(xiLo)- ■■))■ Știm că abandonul corespunde unei aruncări de monede pentru fiecare greutate a matricei După cum ne amintim din Capitolul , o rețea recurentă are trei matrice: intrarea U, ieșirea V și o matrice de ponderi recurente W Intuiția descrisă în [ ] spune că abandonul pe matricea W nu funcționează, deoarece conexiunile recurente trebuie fi conservat Prin urmare, abandonul ar trebui să arate ca în fig , a, păstrând toate conexiunile recurente și aruncând o parte din conexiunile dintre niveluri Dar dacă adăugați o renunțare conform schemei de mai sus, sub forma unei aruncări de monede o dată pentru fiecare coloană a matricei W, atunci această problemă dispare: da, matricea W participă la formulă de multe ori, dar toate conexiunile în timp între neuroni va fi păstrat, deoarece fiecare neuron se va porni sau va opri simultan pe toată secvența de intrare Astfel, se dovedește că abandonul pe conexiunile recurente poate fi folosit, trebuie doar să reparați neuronii ejectați aleatoriu o dată pentru fiecare intrare (sau mini-lot) și puteți arunca din nou monede la diferite intrări, nimic Rețele neuronale bayesiene și abandon nu se va deteriora Am descris o astfel de abandon în fig , b \ acum este posibil să eliminați nu numai legăturile dintre niveluri, ci și componentele individuale ale legăturilor recurente, dar acest lucru trebuie făcut în același mod pe întregul strat În [ ], sunt prezentate rezultatele experimentelor care arată în mod convingător că o astfel de abandonare face cu adevărat rețelele recurente mai bune și previne supraadaptarea fără a compromite calitatea Rețelele neuronale bayesiene sunt un domeniu în creștere foarte rapidă Toate aceste rezultate au fost obținute literalmente în ultimul an sau doi, dar există deja aplicații practice specifice De exemplu, în [ ], un sistem de traducere automată este construit pe baza unui corpus de știri traduse în cadrul unui concurs desfășurat la conferința WMT [ ] (apropo, printre modelele construite există și o traducere din engleză în rusă și invers) Autorii au folosit schema standard cu encoder, decodor și rețea de atenție (reamintire secțiunea ), dar în unele cazuri s-a dovedit că, pentru a evita supraadaptarea, a fost necesară utilizarea unui abandon într-o arhitectură recurentă Au folosit o renunțare variațională așa cum se arată mai sus și au obținut o îmbunătățire semnificativă [ ] ia în considerare problema "unerii" împreună a părților aceleiași imagini, în special pentru aplicații medicale, cum ar fi RMN-ul diferitelor părți ale aceluiași creier Autorii au construit un model bazat pe rețele convoluționale, dar l-au considerat dintr-o perspectivă bayesiană Faptul este că diferitele imagini de aici nu sunt "cusute" destul de precis: timpul trece între diferite imagini, pot fi zgomotoase în diferite grade, pacientul s-ar putea mișca puțin și așa mai departe Și pentru medicină, este important să înțelegem ce părți din imaginea rezultată știm exact și care nu atât de mult; pentru aceasta, am dori să cunoaștem întreaga distribuție posterioară și să putem estima varianța acesteia, și nu doar să obținem un punct optim Aplicații similare, în care apare o "hartă de incertitudine" pentru o imagine, care estimează incertitudinea modelului rezultat în diferitele sale părți, au apărut și, de exemplu, în crearea de vehicule fără pilot [ , ] Există și alte aplicații interesante, dar vreau totuși să termin cu faptul că rețelele neuronale bayesiene sunt, fără îndoială, viitorul antrenării rețelelor neuronale Însuși faptul că "trucurile" empirice ale învățării rețelelor profunde încep treptat să primească o justificare matematică riguroasă inspiră speranță Explicațiile bayesiene despre ceea ce se întâmplă pot duce la o serie de noi progrese importante De exemplu (vezi și [ ]): • dacă înțelegem modul în care metodele de învățare și regularizare sunt legate de distribuțiile a priori și algoritmii de inferență aproximative, putem obține noi metode de învățare prin simpla înlocuire a altor distribuții anterioare, cele care sunt mai potrivite pentru o anumită sarcină; • Învățarea bayesiană poate fi de obicei extinsă la învățarea hiperparametrilor, adică a parametrilor distribuțiilor anterioare din care sunt preluați parametrii modelului; Capitolul • Metodele bayesiene, ca și în aplicațiile menționate mai sus, permit estimarea incertitudinii rămase în model după antrenament; și aceasta are valoare de aplicare evidentă; • multe modele bayesiene clasice obțin rezultate bune folosind ipoteze de bază foarte simple (de exemplu, modelarea subiectelor funcționează prin transformarea textelor în pungi de cuvinte); expresivitatea acestor modele poate fi cu siguranță îmbunătățită semnificativ prin înlocuirea ipotezelor simplificatoare cu modele mai flexibile formalizate folosind rețele neuronale profunde Deci, așa cum am văzut în acest capitol, modelele bayesiene și rețelele neuronale profunde se pot ajuta reciproc: rețelele neuronale fac modelele bayesiene mai flexibile și mai bogate, iar învățarea bayesiană vă permite să înțelegeți mai bine cum să antrenați rețelele neuronale Cu toate acestea, acum această zonă este abia la începutul drumului și așteaptă noi cercetători Stați, colegi! Concluzie: ce nu a fost inclus în carte și ce se va întâmpla în continuare Ea nu este deloc din țara asta - e din acele meleaguri strălucitoare pe care ne așteaptă de mult Acolo roua scânteie mereu și trestia zveltă se leagănă G Miller Tropicul Capricornului Și astfel cartea noastră se termină În concluzie, vom vorbi despre câteva direcții care nu au fost incluse în carte - cine știe, poate că vor aștepta cititorii în edițiile viitoare - și vom încerca, de asemenea, să dăm o prognoză despre unde se va mișca gândirea umană în viitor În capitolul , am vorbit în detaliu despre arhitecturile moderne pentru recunoașterea imaginilor care sunt antrenate pe ImageNet, adică clasifică o fotografie în funcție de obiectul descris în ea Totuși, în viață, când ne uităm în jurul nostru, rezolvăm nu această problemă, ci problema detectării obiectelor: o fotografie poate conține o mulțime de lucruri și putem recunoaște fiecare dintre aceste obiecte și indică exact unde se află Și uneori trebuie să rezolvi și problema segmentării: nu numai să recunoști care și câte obiecte sunt în fotografie, ci și să poți indica literalmente ce pixeli ai fotografiei le aparțin Pentru aceasta, se folosesc arhitecturi care se bazează pe același VGG sau ResNet, dar au straturi suplimentare care sunt antrenate să răspundă la întrebarea unde sunt exact anumite obiecte în fotografie Modele precum YoLo [ , ] și Faster R-CNN [ ] pentru recunoașterea obiectelor și SegNet [ ], U-Net [ ] și Mask R-CNN [ ] pentru segmentare sunt acum lideri în acest domeniu Concluzie: ce nu a fost inclus în carte și ce se va întâmpla în continuare În capitolul , am vorbit pe scurt despre modele cu atenție și, prin urmare, am ocolit câteva direcții interesante pentru dezvoltarea acestei idei Deci, pentru a răspunde la întrebări, sunt folosite așa-numitele rețele de memorie [ , , ], care pot stoca în mod explicit intrarea și gestiona această memorie folosind un fel de mecanism de atenție care decide de ce parte a memoriei aveți nevoie acum Iar următorul pas în dezvoltarea acestei idei a fost făcut de așa-numitele mașini Turing neuronale [ ], care folosesc o versiune particulară a mecanismului de atenție pentru a controla literalmente banda mașinii Turing și a învăța anumiți algoritmi de la un set de intrări și ieșiri "Neurocalculatoarele" moderne sunt antrenate folosind învățarea prin întărire [ ], iar acum acest domeniu se dezvoltă activ în aceeași companie DeepMind Cea mai recentă versiune a unui astfel de model, care a primit numele tare (dar binemeritat) de computer neural diferențiabil (computer neural diferențiabil, DNC), este deja capabilă să gestioneze "RAM" aproape reală, realizând adrese de citire și scriere și rezolvarea de probleme, inventarea de algoritmi pe grafice [ ] Rețelele adversare generative (Capitolul ), Învățarea prin consolidare profundă (Capitolul ) și Învățarea neuro-bayesiană, asupra cărora se concentrează acest capitol, se mișcă atât de repede în acest moment, încât este o prostie ca o carte să încerce să rămână la vârf Un alt set de idei noi importante a fost prezentat la conferința ICML din august De exemplu, în [ ], este prezentată o variantă de învățare de întărire adversarală cu un adversar, în care adversarul încearcă în mod activ să confunde agentul cu anumite acțiuni destabilizatoare În [ ], a fost dezvoltată o variantă de GAN care folosește distanța Wasserstein (denumită în mod obișnuit Distanța lui Earth Mover, EMD) în loc de divergența Jensen-Shannon, ceea ce duce la un antrenament mai stabil și mai puțin colaps al modului Iar lucrarea [ ] dezvoltă o nouă metodă de antrenare a autoencoderelor variaționale, care reprezintă maximizarea probabilității ca un joc între doi jucători și se bazează pe rețele rivale Recent, a existat o tendință evidentă de convergență între rețelele adversare și metodele bayesiene: în [ ] este propusă construcția unei versiuni bayesiene a GAN, iar în [ ] metode de inferență variațională sunt aplicate cu succes GAN-urilor Credem că viitorul apropiat constă tocmai într-o astfel de "legătură" între metodele bayesiene și cele contradictorii Există, de asemenea, noi răsturnări ale ideilor mai clasice: de exemplu, în [ ] sunt propuse așa-numitele rețele de autostrăzi recurente (da, Jurgen Schmidhuber a fost implicat și în această lucrare), care extind arhitectura LSTM cu noi conexiuni și, prin urmare, radical îmbunătăți, de exemplu, modelarea limbajului Și acestea sunt doar câteva exemple În general, acum puteți deschide în siguranță lista lucrărilor oricărei conferințe de top despre învățarea automată (cele două cele mai bune sunt Capitolul ICML, Internațional Conference on Machine Learning și NIPS, Annual Conference on Neural Information Processing Systems), cu siguranță vor fi o mulțime de lucruri interesante și, dacă ați citit această carte, ar trebui să puteți gestiona majoritatea profundelor actuale articole de învățare în rețea Și în sfârșit, întrebarea principală: ce se va întâmpla în continuare? Unde se îndreaptă toate astea? Sincer să fiu, încercarea de a prezice dezvoltarea științei în detaliu este o ocupație absolut fără speranță Dacă am fi știut ce se va întâmpla în continuare, am fi făcut-o cu mult timp în urmă Dar se poate observa un anumit vector general Starea generală de spirit de la începutul revoluției învățării profunde a fost, ca să spunem așa, "ludistă" S-a dovedit brusc că modelele probabilistice, care au reprezentat principalul conținut al învățării automate timp de aproape două decenii, par să nu fie "necesare": puteți doar să veniți cu o arhitectură de rețea neuronală de succes, să începeți să o antrenați cu coborâre în gradient și cu un set de date suficient de mare și o placă video suficient de puternică totul va funcționa cu siguranță Poate că tu însuți ai avut această senzație din primele capitole ale acestei cărți: am subliniat în mod repetat că multe dintre descoperirile în învățarea automată despre care am scris mai devreme au fost obținute "doar prin coborâre în gradient", fără nicio matematică deosebit de complexă, deși nu fără importantă și trucuri neevidente Dar acum devine treptat clar că matematica este încă indispensabilă În acest capitol, am încercat să oferim o foarte scurtă introducere a ceea ce se întâmplă în prezent în fruntea învățării în rețea profundă Deși revoluția învățării profunde este încă în plină desfășurare și toate florile înfloresc în această știință, credem că viitorul stă în metodele bayesiene și fuziunea modelelor probabilistice cu rețelele neuronale Pe această cale au fost obținute cele mai interesante rezultate recente și tocmai în această direcție se îndreaptă cercetătorii de frunte Ca rezultat, rețelele neuronale profunde vor face ceea ce fac cel mai bine: servesc ca aproximatori de uz general pentru funcții foarte complexe; iar aceste funcții vor fi, de exemplu, densitățile distribuțiilor care ne interesează După cum se întâmplă întotdeauna, următoarea întorsătură a spiralei dezvoltării științifice nu o anulează pe cea anterioară, ci o extinde, o complică și o îmbunătățește O altă mare tendință care abia începe acum este aceea de a combina diferiți "agenți" exprimați de rețelele neuronale (și posibil alte tipuri de modele de învățare automată) într-un fel de arhitectură unică care ar putea folosi agenți diferiți pentru sarcini diferite și nu se reinstruiește pentru fiecare nou tip de sarcină din nou Teoretic, asta ar trebui să facă cumva inteligența artificială de uz general, care ar putea avea șansa să ajungă la nivelul uman Un prim pas interesant în această direcție este modelul PathNet, reprezentat de același DeepMind [ ] PathNet este o rețea neuronală modulară formată din mai multe straturi, fiecare dintre ele având mai multe "module", fiecare fiind și o rețea neuronală Pentru diferite sarcini, PathNet construiește noi căi prin această arhitectură modulară, adică pentru sarcină Concluzie: ce nu a fost inclus în carte și ce se va întâmpla în continuare recunoașterea cifrelor scrise de mână, un subset diferit de module poate fi folosit decât pentru sarcina de a juca consola Atari, dar modulele sunt comune, iar căi diferite sunt alese în esență printr-o metodă evolutivă, un algoritm genetic Rezultatele din [ ] sunt destul de convingătoare și, deși acesta este doar primul pas până acum, nu există nicio îndoială că învățarea prin transfer și construirea de arhitecturi de uz general este una dintre sarcinile centrale în învățarea automată pentru următorii ani Și aș vrea să închei cu rezultatele sondajelor, care în au fost rezumate în lucrările lui Vincent Muller și Nick Bostrom, deja menționate de noi [ ] Au intervievat experți de top în domeniul inteligenței artificiale; au existat mai multe grupuri de participanți la sondaj, de la participanții la conferința AGI (Inteligenta Generală Artificială) până la primii de oameni de știință din acest domeniu în ceea ce privește indicele de citare (apropo, au răspuns din , ceea ce arată gravitatea întreprinderea) Când am fost întrebați când vom putea dezvolta inteligență artificială cu drepturi depline la nivel uman, răspunsul median a fost - până în (interesant, primii de oameni de știință de aici au fost chiar puțin mai optimiști, cu o medie în ) și % probabilitatea ca această jumătate a participanților la sondaj să dea evenimentul în sau mai devreme Asta înseamnă că nu este deloc exclus (deși, bineînțeles, nu este garantat de nimeni) că voi și cu mine, dragi cititori, să trăim pentru a vedea momentul în care inteligența artificială ne va ajunge din urmă și iată-l va depasi După atingerea parității, este puțin probabil ca inteligența artificială să fie împiedicată puternic să ne depășească Și atunci viața noastră se va schimba inevitabil dincolo de recunoaștere: chiar dacă nu există "explozii" și "singularități", viteza progresului tehnologic și științific va crește cu siguranță atât de mult încât toate plângerile moderne despre "lumea în continuă schimbare", pe care unii psihologi iubesc atât de mult, va părea că vorbește Cum să ne înțelegem cu inteligența artificială reală, și nu doar cu un set de modele specializate, fiecare dintre ele poate doar să joace go sau să conduci o mașină, este o întrebare pe care tu și cu mine ar trebui să o decidem în timpul vieții noastre Și întregul viitor al civilizației noastre depinde de modul în care îl rezolvăm Sau poate că nu va fi deloc așa Și este teribil de interesant Mulțumiri Suntem foarte recunoscători colegilor noștri care au citit manuscrisul și au făcut comentarii care ne-au permis să îmbunătățim această carte Acestea erau: • Valentin Malykh, Cercetător, Laboratorul de Sisteme Neurale și Învățare Aprofundată, Institutul de Fizică și Tehnologie din Moscova; • Elena Tutubalina, Cercetător, Departamentul de Tehnologii Inteligente de Căutare, Universitatea Federală Kazan (Regiunea Volga); • Pavel Nesterov, pasionat de învățare automată, activist al OpenDataScience, o mișcare care reunește cei mai buni experți vorbitori de limbă rusă în învățarea automată și analiza datelor Sergey Nikolenko este recunoscător colegilor și studenților săi absolvenți de la Departamentul din Sankt Petersburg al Institutului de Matematică Institutul V A Steklov al Academiei Ruse de Științe, cu care de mai bine de zece ani cooperează fructuos (în special Eduard Girsch, Dmitry Itsykson și Alexander Kulikov), colegi și studenți de la Școala Superioară de Științe din Sankt Petersburg (în special Alexander Sirotkin), colegii de la Neuromation (în special Maxim Prasolov și Konstantin Goltsev), precum și personal Kirill Kogan (IMDEA, Madrid) A fost o plăcere să lucrez cu voi toți și sper că cooperarea noastră va continua și în viitor Arthur Kadurin este recunoscător fiului său Mihail și soției Alexandra, care i-au permis adesea să sacrifice obligațiile familiale de dragul scrierii acestei cărți Colegi și prieteni - Ivan Baskov, Pavel Nesterov, Kuzma Khrabrov - care au urmărit activ procesul și au motivat să continue Și, de asemenea, fostului lider - Mikhail Firulik, care a ajutat să se îmbarce pe calea unui om de știință de date și să facă primii pași pe această cale Ekaterina Arkhangelskaya este recunoscătoare familiei sale, și în special bunicului ei Valentin Mihailovici, pentru sprijinul și înțelegerea lor în procesul de scriere a acestei cărți Literatură Abdi N , Williams LJ Principal Component Analysis // Wiley Interdisciplinary Reviews: Computațional Statistics, , voi , nr - P - Ackley DH, Hinton GE, Sejnowski TJ A Learning Algorithm for Boltzmann Machines // Connectionist Models and Their Implications: Readings from Cognitive Science / Norwood, NJ, USA: Ablex Publishing Corp , - P - Abordarea problemei cuvintelor rare în traducerea automată neuronală / T Luong și colab //Proc ACL și IJCNLP, Voi : Long Papers, Beijing, China: ACL, - P - Autoencodere adversari / A Makhzani et al // arXiv, http://arxiv org/abs/ Aggarwal C C , Reddy C K Data Clustering: Algorithms and Applications, Chapman și Hall/CRC, Antipov G , Baccouche M , DugelayJ Face Aging With Condițional Generative Adversarial Networks//arXiv, http://arxiv org/abs/ Aplicarea rețelelor neuronale profunde preantrenate la recunoașterea vocală a vocabularului mare / N Jaitly și colab // Proceedings of Interspeech , Arjovsky M , Chintala S , Bottou L Wasserstein Generative Adversarial Networks // Proc th ICML / voi din Proceedings of Machine Learning Research, PMLR, - P - Arjovsky M , Shah A , Bengio Y Unitary Evolution Recurrent Neural Networks // arXiv, http://arxiv org/abs/ Ask Me Anything: Dynamic Memory Networks for Natural Language Processing / A Ku-mar et al // arXiv, http://arxiv org/abs/ Metode asincrone pentru învățarea prin consolidare profundă / V Mnih și colab // ArXiv, http://arxiv org/abs/ Attention Is All You Need / A Vaswani et al // arXiv, http://arxiv org/abs/ Auer P , Cesa-Bianchi N , Fischer P Finite-Time Analysis of the Multiarmed Bandit Problem // Machine Learning, , voi , nr - - P - Modelul autor-temă pentru autori și documente / M Rosen-Zvi și colab //Proc th UAI, Arlington, VI, Statele Unite: AU AI Press, - P - BaJ , Mnih V , Kavukcuoglu K Multiple Object Recognition with Visual Attention // arXiv, http://arxiv org/abs/ Ba LJ, Kiros R , Hinton GE Layer Normalization // arXiv, http://arxiv org/abs/ Bachman P , Precup D Variational Generative Stochastic Networks with Collaborative Shaping // Proc -a ICML, - P - Back-Propagation Applied to Handwritten Zip Code Recognition / Y LeCun et al // Neural Computation, , voi , nr - P - O progresie inversă a efectelor atenționale în fluxul ventral / EA Buffalo și colab //Proc Academia Națională de Științe, , voi , nr - P - Badrinarayanan V , Kendall A , Cipolla R SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation // arXiv, http://arxiv org/abs/ Bag of Tricks for Efficient Text Classification / A Joulin et al // arXiv, http://arxiv org/abs/ Literatură Bahdanau D , Cho K , Bengio Y Neural Machine Translation by Jointly Learning to Align and Translate // arXiv, http://arxiv org/abs/ Baillargeon R Infants' Physical World // Current Directions in Psychological Science, , voi , nr - P - BainA Simțurile și intelectul, Londra: Parker, Baker CL, Saxe R , TenenbaumJ B Teoria bayesiană a minții: modelarea atribuirii comune credință-dorință // Proc rd CogSci, BallardD H Învățare modulară în rețele neuronale // Proc AAAI, - P - Ballesteros M , Dyer C , Smith NA Analiză îmbunătățită bazată pe tranziție prin modelarea caracterelor în loc de cuvinte cu LSTM-uri // Proc EMNLP , Lisabona, Portugalia: ACL, - P - Baltescu P , Blunsom P Pragmatic Neural Language Modeling in Machine Translation // NAACL HLT , - P - Banchs RE Movie-DiC: A Movie Dialogue Corpus for Research and Development // Proc th ACL: Short Papers - Volume , Stroudsburg, PA, SUA: ACL, - P - Banerjee S , Roy A Linear Algebra and Matrix Analysis for Statistics Texte în Științe Statistice, Chapman și Hall/CRC, Barber D , Bishop C Ensemble Learning in Bayesian Neural Networks // Neural Networks and Machine Learning, Springer, - P - Baroni M , Zamparelli R Substantivele sunt vectori, adjectivele sunt matrice: reprezentarea construcțiilor adjectiv-substantiv în spațiul semantic // Proc EMNLP , Stroudsburg, PA, SUA: ACL, - P - Barto AG, Sutton RS, Anderson CW Neuronlike Adaptive Elements That Can Rezolve Difficult Learning Control Problems // Artificial Neural Networks / Piscataway, NJ, USA: IEEE Press, - P - Rețele neuronale recurente normalizate în loturi / C Laurent și colab // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), martie - P - Baxter J , Bartlett PL Infinite-Horizon Policy-Gradient Estimation // Journal of Artificial Intelligence Research, , voi , nr - P - Bayes T An Essay Towards Solving a Problem in the Doctrine of Chances, în Philosophical Transactions of the Royal Society of London, , voi - P - Benenson R Suntem acolo încă? Crowdsourced List of State of the Art Results in Object Classification, http://rodrigob github io/are we there yet/build/classification datasets r esults html Bengio Y Learning Deep Architectures for AI // Foundations and Trends in Machine Learning, , voi , nr - P - Bengio Y , Courville A C , VincentP Învățare nesupravegheată și învățare profundă: o revizuire și perspective noi // arXiv, http://arxiv org/abs/ Bengio Y , Ducharme R , Vincent P A Neural Probabilistic Language Model // Journal of Machine Learning Research, , voi - P - Bengio Y , Thibodeau-Laufer E , Yosinski J Deep Generative Stochastic Networks Trainable by Backprop//arXiv, http://arxiv org/abs/ Bian J , Gao B , Lin T -Y Învățare profundă bazată pe cunoștințe pentru încorporarea cuvintelor // Învățare automată și descoperire a cunoștințelor în baze de date / Springer, - P - Bickel S , Bruckner M , Scheffer T Discriminative Learning under Covariate Shift // Journal of Machine Learning Research, , voi , nr sept - P - Bishop C M Pattern Recognition and Machine Learning, Springer, Blei DM, Jordan MI, Paisley JW Variational Bayesian Inference with Stochastic Search, Proc th ICML, New York, NY, SUA: ACM, - P - Literatură Blei DM, LaffertyJ D Modele de subiecte corelate // Advances in Neural Information Processing Systems, , voi Blei DM, NgA Y , Jordan MI Latent Dirichlet allocation // Journal of Machine Learning Research, , voi , nr - - P - BLEU: a Method for Automatic Evaluation of Machine Translation / K Papineni et al //Proc ACL, - P - Bliss TV, Collingridge GL A Synaptic Model of Memory: Long-Term Potentiation in the Hippocampus//Nature, , voi , nr - P - Bliss TV, Lomo T Potențiarea de lungă durată a transmiterii sinaptice în zona dentată a iepurelui anesteziat în urma stimulării căii perforante // Journal of Physiology, , voi , nr - P - Bloom P How Children Learn the Meanings of Words, Cambridge, MA: MIT Press, Bostrom N Superintelligence: Paths, Dangers, Strategies, Oxford, Marea Britanie: Oxford University Press, Bostrom N, Yudkowsky E The Ethics of Artificial Intelligence // The Cambridge Handbook of Artificial Intelligence / New York: Cambridge University Press, BothaJ A , Blunsom P Compositional Morphology for Word Representations and Language Modeling // Proc al -lea ICML, - P - Boulanger-le'wando'wski N, Bengio Y , Vincent P Modelarea dependențelor temporale în secvențe dimensionale înalte: aplicație la generarea și transcrierea muzicii polifonice // Proc th ICML, New York, NY, SUA: ACM, - P - Boulanger-Lewandowski N, Bengio Y , Vincent P Modeling Temporal Dependencies in High-Dimensional Sequences: Application to Polyphonic Music Generation and Transcription // Proc Al -lea ICML, icml cc / Omnipress, Bourean Y -L , Ponce J , LeCun Y A Theoretical Analysis of Feature Pooling in Visual Recog-nition //Proc ICML, Omnipress, - P - Boieman SR, Potts C , Manning CD Learning Distributed Word Representations for Natural Logic Reasoning // arXiv, http://arxiv org/abs/ Bowman SR, Potts C , Manning CD Recursive Neural Networks for Learning Logical Se-mantics//arXiv, http://arxiv org/abs/ Bradshaw R , Citro C , Seljebotn D Cython: The Best of Both Worlds // CiSE Special Python Issue, - P Ruperea bețelor și ambiguităților cu Adaptive Skip-gram / S Bartunov și colab //Proc A -a Conferință Internațională de Inteligență Artificială și Statistică, AISTATS , Cadiz, Spania, - mai , - P - Mireasa A , Van de Cruys T , AsherN O generalizare a funcţiilor lexicale pentru compoziţie în semantica distribuţională // Proc ACL și IJCNLP, Voi : Long Papers, Beijing, China: ACL, - P - Brown N, Sandholm T Safe and Nested Endgame Solving for Imperfect-Information Games, Proc AAAI- Works hop pe Computer Poker și Imperfect Information Games, BrownleeJ Clasificarea secvenței cu rețele neuronale recurente LSTM în Python cu Keras, http://machinelearningmastery com/ Buchanan BG, Shortliffe EH Rule Based Expert Systems: The Mycin Experiments of the Stanford Heuristic Programming Project (The Addison-Wesley Series in Artificial Intelli-gence), Boston, MA, SUA: Addison-Wesley Longman Publishing Co , Inc , Construirea de mașini care învață și gândesc ca oamenii / V M Lake și colab // Behavioral and Brain Sciences, nov - P - Buys J , Blunsom P Generative Incremental Dependency Parsing with Neural Networks // Proc Cea de-a -a ACL și a -a Conferință Internațională Comună privind Procesarea Limbii Naturale Literatură al Federației Asiatice de Procesare a Limbii Naturale, Voi : Lucrări scurte, - P - Calafiore G C, El Ghaoui L Optimization Models, Cambridge University Press, CAN: Creative Adversarial Networks, Generating "Art" prin Learning About Styles and De-viating from Style Norms / AM Elgammal et al // arXiv, http://arxiv org/abs/ Caporale N , Dan Y Spike Timing-Dependent Plasticity: A Hebbian Learning Rule // An-nual Review of Neuroscience, , voi - P - Carandini M Zona VI // Scholarpedia / - P http://www scholarpedia org/article/Area V Carreira-Perpinan MA, Hinton G On Contrastive Divergence Learning // AISTATS / voi , - P - Chang J , Blei DM Hierarchical Relațional Models for Document Networks // Annals of Applied Statistics, , voi , nr - P - Modele de limbaj neuronal conștient de caractere / Y Kim și colab // arXiv, http://arxiv org/abs/ Chen J , Deng L A New Method for Learning Deep Recurrent Neural Networks // arXiv, http://arxiv org/abs/ Chen SF, Goodman J An Empirical Study of Smoothing Techniques for Language Modeling // Proc th ACL, Stroudsburg, PA, SUA: ACL, - P - Chintala S , LeCun Y A Path to Unsupervised Learning through Adversarial Networks, https://code facebook com/posts/ Cho K Introducere în traducerea automată neuronală cu GPU, https:// devblogs nvidia com/parallelforall/introduction-neural-machine-translation-with-gpus/ CholletF Keras, https://github com/fchollet/keras, Chomsky N Syntactic Structures, Mouton & Co , Chung J , Cho K , Bengio Y A Character-level Decoder without Explicit Segmentation for Neural Machine Translation // arXiv, http://arxiv org/abs/ Churchland PS, Ramachandran VS, Sejnowski TJ A Critique of Pure Vision // Large-Scale Neuronal Theories of the Brain / MIT Press, - P Clark S , Coecke B , Sadrzadeh M A Compositional Distributional Model of Meaning, Proc Al doilea simpozion privind interacțiunea cuantică (QI- ), - P - Clark S , Coecke B , Sadrzadeh M Mathematical Foundations for a Compositional Distributed Model of Meaning // Linguistic Analysis, , voi , nr - - P - Modele N-grame ale limbajului natural bazate pe clasă / PF Brown și colab // Calcul Lingvist , , voi , nr - P - Clevert D , Unterthiner T , Hochreiter S Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs) //arXiv, http://arxiv org/abs/ Coecke B , Sadrzadeh M , Clark S Mathematical Foundations for a Compositional Distributional Model of Meaning // arXiv, http://arxiv org/abs/ Collobert R , Bengio S Links Between Perceptrons, MLPs and SVMs, Proc Primul ICML, New York, NY, SUA: ACM, - P - Collobert R , Bengio S , Marithoz J Torch: A Modular Machine Learning Software Library, Collobert R , Kacukcuoglu K , Farabet C Torch : A Matlab-like Environment for Machine Learning // BigLearn, NIPS Workshop, Combinarea actualizărilor bazate pe model și fără model pentru învățarea prin consolidare centrată pe traiectorie / Y Chebotar și colab // arXiv, http://arxiv org/abs/ Spații de propoziții concrete pentru modelele compoziționale de distribuție ale sensului / E Grefenstette și colab //Proc th Internațional Conference on Computațional Semantics (IWCS ), - P - Literatură Spații de propoziții concrete pentru modelele compoziționale de distribuție ale sensului / E Grefenstette și colab // Computing Meaning / Springer, - P - Generarea de imagini condiționale cu decodoare PixelCNN / A van den Oord și colab // arXiv, http://arxiv org/abs/ A Context-Aware Topic Model for Statistical Machine Translation / J Su et al //Proc ACL și IJCNLP, Voi : Long Papers, Beijing, China: ACL, - P - Rețele neuronale profunde pre-antrenate dependente de context pentru recunoașterea vorbirii de vocabular mare / G Dahl și colab /voi , - P - The Cornucopia of Meaningful Leads: Applying Deep Adversarial Autoencoders for New Molecule Development in Oncology / A Kadurin et al // Oncotarget, , voi - P - Deplasarea covariabilă prin potrivirea medie a nucleului / A Gretton și colab // Dataset Shift in Machine Learning, , voi , nr - P CoxR T The Algebra of Probable Inference, Johns Hopkins Press Baltimore, - P Creswell A , Bharath AA Denoising Adversarial Autoencoders // arXiv, http:// arxiv org/abs/ CS n Rețele neuronale convoluționale pentru recunoașterea vizuală http://cs n github io/neural-networks- /#second cuDNN: Efficient Primitives for Deep Learning / S Chetlur et al // arXiv, http: //arxiv org/abs/ Dataset Shift in Machine Learning / J Quionero-Candela et al , The MIT Press, Daugman JG Relația de incertitudine pentru rezoluție în spațiu, frecvență spațială și orientare optimizată prin filtre corticale vizuale bidimensionale // Journal of the Optical Society of America A, , voi , nr - P - Dayan P , Abott L Theoretical Neuroscience, Cambridge, MA, SUA: MIT Press, Deep Generative Adversarial Networks for Compressed Sensing Automates RMN / M Mardani et al // arXiv, http://arxiv org/abs/ Învățare profundă pentru înțelegerea vizuală: o revizuire / Y Guo și colab // Neurocomputing, , voi - P - , Recent Developments on Deep Big Vision Bergstra J , Breuleux O et al Tutorial Deep Learning: Theano Documentation, Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups / G Hinton et al // IEEE Signal Processing Magazine, nov , voi , nr - P - Deep Reinforcement Learning for Robotic Manipulation / S Gu et al // arXiv, http: //arxiv org/abs/ Deep Residual Learning for Image Recognition / K Ne et al //Proc CVPR, - P - DeepFace: Closing the Gap to Human-Level Performance in Face Verification / Y Taig-man et al //Proc IEEE Conference on Computer Vision and Pattern Recognition, Washington, DC, SUA: IEEE Computer Society, - P - DeepStack: Inteligența artificială la nivel de expert în Heads-Up No-Limit Poker / M Morav-cik și colab // Science, , voi , nr - P - Aprofundarea în redresoare: depășirea performanței la nivel uman pe clasificarea ImageNet / K Ne și colab //Proc ICCV , - P - DengL A Tutorial Survey of Architectures, Algorithms, and Applications for Deep Learning // Tranzacții APSIPA privind procesarea semnalului și a informațiilor, Deng L , Hinton G , Kingsbury B New Types of Deep Neural Network Learning for Speech Recognition and Related Applications: An Overview // IEEE Internațional Conference on Acoustics, Speech, and Signal Processing (ICASSP), mai , Literatură DengL , Yu D Deep Learning: Methods and Applications // Foundations and Trends in Signal Processing, , voi , nr - - P - Rețele neuronale convoluționale bazate pe dependență pentru încorporarea propozițiilor / M Ma și colab //Proc ACL , Voi : Lucrări scurte, - P Evoluții și direcții în recunoașterea și înțelegerea vorbirii, partea [DSP Education] / JM Baker și colab // IEEE Signal Processing Magazine, mai , voi , nr - P - Dex-Net : Deep Learning to Plan Robust Grasps with Synthetic Point Clouds and Analytic Grasp Metrics / J Mahler et al // arXiv, http://arxiv org/abs/ Dinh L , Sohl-Dickstein J , Bengio S Density Estimation using Real NVP // arXiv, http://arxiv org/abs/ Estimarea importanței directe cu selecția modelului și aplicarea acesteia la adaptarea de schimbare covariabilă / M Sugiyama și colab // Progrese în sistemele de procesare a informațiilor neuronale, -P - Reprezentări distribuite de cuvinte și fraze și compoziționalitatea lor / T Mikolov și colab // arXiv, http://arxiv org/abs/ Doersch C Tutorial on Variational Autoencoders // ArXiv e-prints, Domingos P The Mașter Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World Cărți de bază, Cărți de bază, Downey AB Think Python - How to Think Like a Computer Scientist, O'Reilly, DRAW: O rețea neuronală recurentă pentru generarea de imagini / K Gregor și colab // arXiv, http://arxiv org/abs/ Dreyfus SE The Computațional Solution of Optimal Control Problems with Time Lag // IEEE Transactions on Automatic Control, , voi ( ) - P - Abandonul: o modalitate simplă de a preveni supraadaptarea rețelelor neuronale / N Srivastava și colab //Journal of Machine Learning Research, , voi , nr - P - druGAN: An Advanced Generative Adversarial Autoencoder Model for de Novo Generation of New Molecules with Desired Molecular Properties in Silico / A Kadurin et al // Molecular Pharmaceutics, Duchi J , Hazan E , Singer Y Adaptive subgradient methods for online learning and stochastic optimization // Journal of Machine Learning Research, , voi , nr iul - P - Duffy SA, Henderson JM, Morris RK Facilitarea semantică a accesului lexical în timpul procesării propozițiilor // Journal of Experimental Psychology: Learning, Memory, and Cognition, , voi -P - Durrett G , Klein D Neural CRF parsing // arXiv, http://arxiv org/abs/ Dynamic Pooling and Unfolding Recursive Autoencoders for Paraphrase Detection / R Socher et al //Advances in Neural Information Processing Systems, - P - Efficient BackProp / Y LeCun et al // Neural Networks: Tricks of the Trade, Londra, Marea Britanie, Marea Britanie: Springer-Verlag, - P - Efficient Backprop / Y LeCun et al // Neural Networks: Tricks of the Trade / Springer Berlin Heidelberg, - P - Estimarea eficientă a reprezentărilor de cuvinte în spațiul vectorial / T Mikolov și colab // arXiv, http://arxiv org/abs/ ElHihi S , Bengio Y Hierarchical Recurrent Neural Networks for Long-Term Dependencies, Elman JL Finding Structure in Time // Cognitive Science, , voi , nr - P - Evaluarea empirică a rețelelor neuronale recidivante cu poartă pe modelarea secvenței / J Chung și colab // arXiv, http://arxiv org/abs/ Literatură Codificarea limbajului sursă cu rețea neuronală convoluțională pentru traducerea automată / F Meng și colab //Proc ACL și IJCNLP, Voi : Long Papers, Beijing, China: ACL, -P - Învățare de la capăt la capăt pentru mașini cu auto-conducere / M Bojarski și colab // arXiv, http://arxiv org/abs/ Training end-to-end of Deep Visuomotor Policies / S Levine et al //Journal of Machine Learning Research, , voi , nr - P - Îmbogățirea vectorilor de cuvinte cu informații de subcuvânt / P Bojanowski și colab // arXiv, http://arxiv org/abs/ Euclidean Embedding of Co-occurrence Data / A Globerson et al //Journal of Machine Learning Research, , voi - P - Exploring the Limits of Language Modeling / R J zefowicz et al // arXiv, http://arxiv org/abs/ Extensii ale modelului de limbaj al rețelei neuronale recurente / T Mikolov și colab // Acoustics, Speech and Signal Processing (ICASSP), IEEE International Conference on, - P - Extragerea și alcătuirea caracteristicilor robuste cu autoencodere de deznodare / P Vincent și colab //Proc th ICML, New York, NY, SUA: ACM, - P - Rezumat extractiv folosind modele spațiale vectoriale continue / M Kageback și colab //Proc nd Workshop on Continuous Vector Space Models and their Compositionality (CVSC)@ EACL, - P - Fcirlow SJ Self-Organizing Methods in Modeling: Gmdh Type Algorithms, New York, NY, SUA: Marcel Dekker, Inc , Fast and Robust Neural Network Joint Models for Statistical Machine Translation / J De-vlin et al //Proc nd ACL, Voi : Long Papers, Baltimore, Maryland: ACL, iunie - P - Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks / S Ren et al // arXiv, http://arxiv org/abs/ FastText zip: Compressing Text Classification Models / A Joulin et al // arXiv, http://arxiv org/abs/ Fellbaum C WordNet and wordnets // Encyclopedia of Language and Linguistics, Oxford: Elsevier, - P - Felzenszwalb PF, Girshick RB, McAllester DA Cascade Object Detection with De-formable Part Models // CVPR, IEEE Computer Society, - P - Găsirea funcției în formă: Modele de caractere compoziționale pentru reprezentarea cuvintelor cu vocabular deschis / W Ling și colab //Proc EMNLP , Lisabona, Portugalia: ACL, - P - Constatările conferinței din privind traducerea automată / O Bojar și colab //Proc Prima conferință privind traducerea automată, Berlin, Germania: ACL, august - P - Finn C , Levine S , AbbeelP Învățare dirijată a costurilor: Control optim invers profund prin optimizarea politicilor // Proc -a ICML, - P - Finnson H Extensii generalizate de căutare a arborilor Monte-Carlo pentru jocul general // Proc th AAAI Conference on Artificial Intelligence, - P - Finnson H Joc general bazat pe simulare: Ph D teză / Universitatea din Reykjavik, Firat O , Cho K , Bengio Y Multi-Way, Multilingual Neural Machine Translation with A Shared Attention Mechanism // arXiv, http://arxiv org/abs/ Rețele neuronale convoluționale flexibile, de înaltă performanță pentru clasificarea imaginilor / DC Ciresan și colab //Proc th Internațional Joint Conference on Artificial Intelligence - Volume Two, AAAI Press, - P - Literatură Freebase: A Collaboratively Created Graph Database for Structuring Human Knowledge / K Bollacker et al //Proc ACM SIGMOD Internațional Conference on Management of Data, New York, NY, SUA: ACM, - P - Frey B Graphical Models for Machine Learning and Digital Communication, Cambridge, MA: MIT Press, FriedD , Polajnar T , Clark S Low-Rank Tensors for Verbs in Compositional Distributional Semantics, Proc ACL și IJCNLP, Voi : Short Papers, Beijing, China: ACL, -P - Fukushima K Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position - Neocognitron // Transactions of the IECE, , voi J -A( ) - P - Fukushima K Neocognitron: A Self-Organizing Neural Network for a Mechanism of Pattern Recognition Unaffected by Shift in Position // Biological Cybernetics, , voi , nr - P - Analize şi algoritmi Gabor / Ed de HG Feichtinger, T Strohmer Analiza armonică aplicată și numerică, Birkhauser, Gal Y A Theoretical Grounded Application of Dropout in Recurrent Neural Networks // arXiv: , Gal Y Uncertainty in Deep Learning: Ph D teză / Universitatea din Cambridge, Gal Y , Ghahramani Z Dropout as a Bayesian Approximation: Insights and Applications // Deep Learning Workshop, ICML, Gal Y , Ghahramani Z On Modern Deep Learning and Variational Inference // Advances in Approximate Bayesian Inference workshop, NIPS, Ganitkevitch J , Durme B V , Callison-Burch C PPDB: The Paraphrase Database, Proc HLT-NAACL, ACL, - P - GefterA The Man WhoTriedto RedeemtheWorld with Logic //Nautilus, , voi - P - Geitgey A Abuzing Generative Adversarial Networks to Mace -bit Pixel Art, https://medium eom/@ageitgey/ Reţele adversare generative / J Goodfellow şi colab // ArXiv e-prints, Gers FA, SchmidhuberJ Recurent Nets that Time and Count // Neural Networks, IJCNN , Proc IEEE-INNS-ENNS International Joint Conference on/voi , - P - Gers FA, Schmidhuber J , Cummins F Learning to Forget: Continual Prediction with LSTM//Neural Computation, , voi , nr - P - Glorot X , Bengio Y Understanding the Difficulty of Training Deep Feedforward Neural Networks // Internațional conference on artificial intelligence and statistics, - P - Glorot X , Bordes A , Bengio Y Deep Sparse Rectifier Networks // AISTATS / voi , -p - Going Deeper with Convolutions / C Szegedy et al // arXiv, , voi abs/ http://arxiv org/abs/ Goldberg Y A Primer on Neural Network Models for Natural Language Processing // arXiv, http://arxiv org/abs/ Goldberg Y , Levy O Word vec Explained: Deriving Mikolov et al 's Negative-Sampling Word-Embedding Method //arXiv, http://arxiv org/abs/ Goodfellow , Bengio Y , Couruille A Deep Learning, MIT Press, , http://www deeplearningbook org Goodfellow IJ NIPS Tutorial: Generative Adversarial Networks // arXiv, http: //arxiv org/abs/ Literatură Goodman JT Un pic de progres în modelarea limbajului // Comput Speech Lang , , voi , nr -P - Sistemul de traducere automată neuronală de la Google: Reducerea decalajului dintre traducerea umană și cea automată / Y Wu și colab // arXiv, http://arxiv org/abs/ Învățare bazată pe gradient aplicată recunoașterii documentelor / Y LeCun și colab //Proc IEEE, , voi , nr - P - GranbergD Dilema Monty Hali: O iluzie cognitivă prin excelență, Lumad/Cre-ateSpace, The Grand Challenge of Computer Go: Monte Carlo Tree Search and Extensions / S Gelly et al // Comunicările ACM, , voi , nr - P - MorminteA Practicai Variational Inference for Neural Networks // Advances in Neural Information Processing Systems / Curran Associates, Inc , - P - Graues A Generating Sequences With Recurrent Neural Networks // arXiv, http://arxiv org/abs/ Graues A , Schmidhuber J Framewise Phoneme Classification with Bidirectional LSTM and Other Neural Network Architectures // Neural Networks, , voi , nr - - P - GravesA , Wayne G , Danihelkal Neural Turing Machines//arXiv, http://arxiv org/abs/ Greedy Layer-Wise Training of Deep Networks / Y Bengio et al //Proc th NIPS, Cambridge, MA, SUA: MIT Press, - P - Grefenstette E Towards a Formal Distributional Semantics: Simulating Logical Calculi with Tensors //arXiv, http://arxiv org/abs/ Grefenstette E , Sadrzadeh M Experimental Support for a Categoric Compositional Distributional Model of Meaning, Proc EMNLP , Stroudsburg, PA, SUA: ACL, - P - Griffiths T , Steyvers M Finding Scientific Topics // Proc Academia Națională de Științe, , voi (Supl ) - P - GSN-uri : Generative Stochastic Networks / G Alain et al // arXiv, http://arxiv org/abs/ Guenin B , Konemann J , Tun el L A Gentle Introduction to Optimization, Cambridge Uni-versity Press, Guo H Generating Text with Deep Reinforcement Learning // arXiv, http://arxiv org/abs/ HallD , Durrett G , Klein D Less Grammar, More Features, Proc nd ACL, Voi : Long Papers, Baltimore, Maryland: ACL, iunie - P - HamlinJ K Judecata morală și acțiunea la sugari și toddlers preverbali // Current Directions in Psychological Science, , voi , nr - P - Han ALF, WongD F , Chao LS LEPOR: A Robust Evaluation Metric for Machine Translation with Augmented Factors // Proceedings of COLING : Posters, Mumbai, India: The COLING Organizing Committee, decembrie - P - Recunoașterea cifrelor scrise de mână cu o rețea de propagare înapoi / Y LeCun și colab // Advances in Neural Information Processing Systems , Morgan Kaufmann, - P - Hanson R , Yudkowsky E The Hanson-Yudkowsky AI-Foom Debate, Berkeley, CA: Machine Intelligence Research Institute, Hanson SJ, Pratt LY Comparing Biases for Minimal Network Construction with Back-Propagation // Advances in Neural Information Processing Systems (NIPS) , San Mateo, CA: Morgan Kaufmann, - P - HastadJ Computațional Limitations of Small-Depth Circuits, Cambridge, MA, SUA: MIT Press, Literatură Hebb D O The Organization of Behavior, Wiley, New York, HeessN , SilverD , Teh YW Actor-Critic Reinforcement Learning with Energy-Based Policies //EWRL/voi din Procesele JMLR, JMLR org, - P - Hermann K M , Blunsom P Multilingual Models for Compositional Distributed Semăn-tics // Proc nd ACL, Voi : Long Papers, Baltimore, Maryland: ACL, - P - A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues / IV Serban et al //Proc AAAI, - P - Modele de limbaj neuronal ierarhic pentru reprezentarea în comun a documentelor în flux și a conținutului lor / N Djuric și colab //Proc th WWW, New York, NY, SUA: ACM, - P - Modele generative de rețea neuronală ierarhică pentru dialoguri de film / V Serban et al // arXiv, http://arxiv org/abs/ A Hierarchical Recurrent Encoder-Decoder for Generative Context-Aware Query Suggestions / A Sordoni et al //Proc th ACM Internațional on Conference on Information and Knowledge Management, New York, NY, SUA: ACM, - P - Rețele neuronale de înaltă performanță pentru clasificarea obiectelor vizuale/DC Ciresan și colab // arXiv, http://arxiv org/abs/ Hindupur A The GAN Zoo: A List of All Named GANs, https://github com/hindupuravinash/the-gan-zoo Hinton G How to Do Backpropagation in a Brain, Discurs invitat la Atelierul de învățare profundă NIPS' , Hinton GE Training Products of Experts by Minimizing Contrastive Divergence // Neural Computation, , voi , nr - P - Hinton GE Learning Multiple Layers of Representation // Trends in Cognitive Sciences, , voi -P - Hinton GE Ghid practic pentru instruirea mașinilor Boltzmann cu restricții // Neural Networks: Tricks of the Trade (ed a -a) / Springer, - P - Hinton G E , McClellandJ L Learning Representations by Recirculation // Neural Information Processing Systems / American Institute of Physics, - P - Hinton G E , Osindero S , Teh Y -W A Fast Learning Algorithm for Deep Belief Nets // Neural Computation, , voi , nr - P - Hinton GE, Salakhutdinov RR Reducing the Dimensionality of Data with Neural Networks // Science, , voi , nr - P - Hinton GE, Sejnowski TJ Learning and Relearning in Boltzmann Machines // Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Voi / Cambridge, MA, SUA: MIT Press, - P - Hinton GE, van Câmp D Keeping the Neural Networks Simple by Minimizing the De-scription Length of the Weights, Proc th CoLT, New York, NY, SUA: ACM, - P - Hochreiter S , SchmidhuberJ Memoria pe termen lung pe termen scurt: Teh Reprezentant FKI- - : Fakultat fur Informatik, Technische Universitat Munchen, Hochreiter S , Schmidhuber J Long Short-Term Memory // Neural Computation, , voi , nr -P - Hoffmann T Unsupervised Learning by Probabilistic Latent Semantic Analysis // Machine Learning, , voi , nr - P - HopfieldJ J Rețele neuronale și sisteme fizice cu abilități de calcul colective emergente // Proc al Academiei Naţionale de Ştiinţe, , voi - P - Homik K , Stinchcombe M , White H Multilayer Feedforward Networks are Universal Ap-proximators // Neural Networks, , voi , nr - P - Literatură Cum să nu evaluezi sistemul tău de dialog: un studiu empiric al parametrilor de evaluare nesupravegheat pentru generarea răspunsului la dialog / C Liu et al //Proc EMNLP , -P - Howcird R A Dynamic Programming and Markov Processes, Cambridge, MA: MIT Press, HubelD H Eye, Brain, and Vision, ediția a doua, W H Freeman, HubelD H, Wiesel T Receptive Fields, Binocular Interaction, and Functional Architecture in the Cat's Visual Cortex//Journal of Physiology (Londra), , voi -P - Hubel D H, Wiesel TN Receptive Fields and Functional Architecture of Monkey Striate Cortex // Journal of Physiology, , voi , nr - P - Hubel D H, Wiesel TN Brain and Visual Perception: The Story of a -Year Collaboration, Oxford University Press, Controlul la nivel uman prin învățare prin consolidare profundă / V Mnih și colab // Nature, , voi , nr -P - Oamenii prezic dinamica lichidelor folosind simularea probabilistică / C Bates et al //Proc Cogsci , Calcularea hibridă folosind o rețea neuronală cu memorie externă dinamică / A Graves și colab //Natura, , voi , nr - P - Hyvarinen A , Karhunen J , Oja E Independent Component Analysis, New York: Wiley, Identity Mappings in Deep Residual Networks / K Ne et al // arXiv, http://arxiv org/abs/ Procesarea imaginii endoteliului corneean uman pe baza unei rețele de învățare / W Zhang și colab // Optica aplicată, , voi , nr ImageNet Large Scale Visual Recognition Challenge / O Russakovsky et al // Internațional Journal of Computer Vision (IJCV), , voi , nr - P - Tehnici îmbunătățite pentru formarea GAN-urilor / T Salimans și colab // arXiv, http://arxiv org/abs/ Îmbunătățirea rețelelor neuronale prin prevenirea co-adaptarii detectorilor de caracteristici / GE Hinton și colab // arXiv, http://arxiv org/abs/ Indexarea prin analiză semantică latentă / S Deerwester et al // Journal of the American Society for Information Science, , voi , nr - P - InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets / X Chen et al // arXiv, http://arxiv org/abs/ Proprietăți intrigante ale rețelelor neuronale / C Szegedy și colab // arXiv, http:// arxiv org/abs/ An Introduction to MCMC for Machine Learning / C Andrieu et al // Machine Learning, ian , voi , nr - P - GAN-uri condiționale inversabile pentru editarea imaginilor / G Perarnau și colab // arXiv, http: //arxiv org/abs/ loffe S , Szegedy C Batch Normalization: Accelerating Deep Network Training by Reducing Internai Covariate Shift // Proc ICML, - P - Irsoy O , Cardie C Opinion Mining with Deep Recurrent Neural Networks // Proc EMNLP, - P - Itti L , Koch C , NieburE Un model de atenție vizuală bazată pe proeminentă pentru analiza rapidă a scenei // IEEE Trans model anal Machine Intelling, , voi , nr - P - IvakhnenkoA G The Group Method of Data Handling - a Rival of the Method of Stochastic Approximation // Controlul automat sovietic, , voi , nr - P - Ivakhnenko AG Teoria polinomială a sistemelor complexe // IEEE Transactions on Systems, Man and Cybernetics, , nr - P - Literatură Ivakhnenko A G , Lapa V G , McDonough R N Cybernetics and Forecasting Techniques, American Elsevier, NY, Jaeger H Discovering Multiscale Dynamical Features with Hierarchical Echo State Networks: Technical Report , Bremen, Germany: School of Engineering and Science, Jacobs University, Jain V , Seung S Natural Image Denoising with Convolutional Networks // Advances in Neural Information Processing Systems (NIPS) / Curran Associates, Inc , - P - Jaitly N, Hinton GE Learning a Better Representation of Speech Soundwaves Using Re-stricted Boltzmann Machines // ICASSP, IEEE, - P - Jeffreys H Teoria probabilității, Oxford: Oxford University Press, Joint Learning of Character and Word Embeddings / X Chen et al //Proc th International Conference on Artificial Intelligence, AAAI Press, - P - Jonas E , Kording K Could a Neuroscientist Understand a Microprocessor? // bioRxiv, Jordan MI Serial Order: A Parallel Distributed Processing Approach: Tech Reprezentant Raport ICS : Institutul pentru Științe Cognitive, Universitatea din California, San Diego, Jordan M I Attractor Dynamics and Parallelism in a Connectionist Sequential Machine // Artificial Neural Networks / Piscataway, NJ, SUA: IEEE Press, - P - Jordan MI Serial order: A parallel distributed processing approach, Advances in Psychology, , voi - P - Jzefowicz R , Zaremba W , Sutskecerl O explorare empirică a arhitecturii de rețea recurente // Proc al -lea ICML, - P - Kaku M Interviu, http://www wnyc org/story/michio-kaku-explores-human-brain/, Kalchbrenner N , Blunsom P Recurrent Continuous Translation Models // EMNLP / voi , -P Kalchbrenner N , Blunsom P Recurrent Convolutional Neural Networks for Discourse Com-positionality //arXiv, http://arxiv org/abs/ Kalchbrenner N , Grefenstette E , Blunsom P A Convolutional Neural Network for Modeling Sentences //arXiv, http://arxiv org/abs/ Karpathy A Ce am învățat din competiția împotriva unui ConvNet pe ImageNet, http://karpathy github io/ / / /what-i-learned-from-competiting-against-a-convnet-on-imagenet/ Karpathy A The Unreasonable Effectiveness of Recurrent Neural Networks, http: //karpathy github io/ / / /rnn-eficacitate/ Karpathy A , Fei-Fei L Deep Visual-Semantic Alignments for Generating Image Descri-tions // Proc IEEE Conference on Computer Vision and Pattern Recognition, - P - Kartsaklis D , Sadrzadeh M , Pulman S A Unified Sentence Space for Categorical Distributional-Compositional Semantics: Theory and Experiments // Proceedings of th Internațional Conference on Computațional Linguistics (COLING): Posters, Mumbai, India: p - Kendall A , Badrinarayanan V , Cipolla R Bayesian SegNet: Model Uncertainty in Deep Convolutional Encoder-Decoder Architectures for Scene Understanding // arXiv, http: //arxiv sau g/abs/ Kendall A , Cipolla R Modeling Uncertainty in Deep Learning for Camera Relocalization // arXiv, http://arxiv org/abs/ Kingma D , Ba J Adam: A Method for Stochastic Optimization // arXiv, http://arxiv org/abs/ Literatură Kingma DP, Salimans T , WellingM Abandonul variațional și trucul de reparametrizare locală // Avansuri în sistemele de procesare a informațiilor neuronale / Curran Associates, Inc , -P - Kingma DP, WellingM Auto-Coding Variational Bayes // ArXiv e-prints, Kneser R , Ney H Îmbunătățirea backing-off pentru modelarea limbajului M-Gram // Proc ICASSP- /voi , - P - Knudsen EI Fundamental Components of Attention // Annual Review of Neuroscience, , voi , nr l -P - Ko J , Fox D GP-BayesFilters: Bayesian Filtering using Gaussian Process Prediction and Observation Models // Proc IROS , - P - Krizhevsky A , Sutskever L, Hinton GE ImageNet Classification with Deep Convolutional Neural Networks // Advances in Neural Information Processing Systems / Curran Associates, Inc , - P - Krogh A , Hertz JA A Simple Weight Decay can Improve Generalization // Advances in Neural Information Processing Systems , Morgan Kaufmann, - P - Kullback S Teoria și statistica informațiilor, John Wiley & Sons, Kullback S , Leibler R A Despre informare și suficiență // Ann Matematică Statist , , voi , nr l -P - Lacoste-Julien S , Sha F Jordan MI DiscLDA: Discriminative Learning for Dimensionality Reduction and Classification // Advances in Neural Information Processing Systems, , voi Lafferty J , McCallum A , Pereira F C Condițional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data, Lake V M , Salakhutdinov R , Tenenbaum JB Human-Level Concept Learning through Probabilistic Program Induction // Science, Lampert C H, Blaschko MB, Hofmann T Beyond Sliding Windows: Object Localization by Efficient Subwindow Search // IEEE Conference on Computer Vision and Pattern Recognition, - P - Landauer T Dumais ST A Solution to Platon's problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge // Psychological Review, , voi , nr - P - LangK J , WaibelA H, Hinton GE A Time-Delay Neural Network Architecture for Isolated Word Recognition // Neural Networks, , voi , nr - P - Large Automatic Learning, Rule Extraction, and Generalization / J Denker et al // Sisteme complexe, , voi - P - Large Scale Distributed Deep Networks / J Dean et al //Proc th NIPS, SUA: Curran Associates Inc , - P - Larochelle H, Hinton GE Learning to Combine Foveal Glimpses with a Third-Order Boltz-mann Machine // Advances in Neural Information Processing Systems / Curran Associates, Inc , - P - A Latent Semantic Model with Convolutional-Pooling Structure for Information Re-trieval/Y Shenetal //Proc rdCIKM, NewYork, NY, SUA: ACM, - P - Lacie A , Sagae K , Jayaraman S The Significance of Recall in Automatic Metrics for MT Evaluation // Traducere automată: De la utilizatori reali la cercetare: Proc AMTA/Ed de R E Frederking, K B Taylor, Berlin, Heidelberg: Springer Berlin Heidelberg, - P - Lazebnik Y Poate un biolog să repare un radio? - or, What I Learned while Studying Apoptosis // Biochemistry (Moscova), , voi , nr - P - Le QV, Jaitly N , Hinton GE A Simple Way to Initialize Recurrent Networks of Rectified Linear Units //arXiv, http://arxiv org/abs/ Literatură Le QV, Mikolov T Distributed Representations of Sentences and Documents // arXiv, http://arxiv org/abs/ Învățarea modelelor autor-temă din Text Corpora / M Rosen-Zvi și colab // ACM Transactions on Information Systems, , voi , nr - P - Learning Convolutional Feature Hierarchies for Visual Recognition / K Kavukcuoglu et al // Progrese în sistemele de procesare a informațiilor neuronale / Curran Associates, Inc , -P - Învățarea modelelor semantice structurate profunde pentru căutarea pe Web utilizând date clic / P -S Huang şi colab , Proc CICM, Learning Longer Memory in Recurrent Neural Networks / T Mikolov et al // arXiv, http: //arxiv org/abs/ Learning Mid-Level Features for Recognition / Y Bourean et al //Proc Internațional Conference on Computer Vision and Pattern Recognition (CVPR'IO), IEEE, Învățarea faptelor noi din bazele de cunoștințe cu rețele de tensori neuronali și vectori de cuvinte semantice / D Chen și colab // Internațional Conference on Learning Representations (ICLR), Învățarea reprezentărilor de expresii folosind codificatorul-decodor RNN pentru traducerea automată statistică / K Cho și colab //Proc EMNLP, Doha, Qatar: ACL, - P - Învățarea reprezentărilor de expresii folosind codificatorul-decodor RNN pentru traducerea automată statistică / K Cho și colab //Proc EMNLP , - P - Learning to Navigate in Complex Environments / P Mirowski et al // arXiv, http: //arxiv org/abs/ Learning What and Where to Draw / SE Reed et al // arXiv, http://arxiv org/abs/ Learning where to Attend with Deep Architectures for Image Tracking / M Denii et al // arXiv, http://arxiv org/abs/ Lebret R , Collobert R Word Embeddings through Hellinger PCA // Proc th EACL, Gothenburg, Suedia: ACL, aprilie - P - LeCun Y , Bengio Y , Hinton G Deep learning // Nature, , voi , nr - P - LeCun Y , Cortes C MNIST Handwritten Digit Database, http://yann lecun com/exdb/mnist/, Lee A X , Levine S , Abbeel P Learning Visual Servoing with Deep Features and Fitted Q-Iteration//arXiv, http://arxiv org/abs/ Lee D -H Pseudo-Etichetă: Metoda de învățare semi-supravegheată simplă și eficientă pentru rețelele neuronale profunde - pseudo label final pdf Lei T , Zhang Y Training RNNs as Fast as CNNs // arXiv, http://arxiv org/abs/ Lennie P The Cost of Cortical Computation // Current Biology, , voi , nr - P - Lerer A , Gross S , Fergus R Learning Physical Intuition of Block Towers by Example // arXiv, http://arxiv org/abs/ Levine S , Koltun V Căutare ghidată de politici // Proc th ICML / voi III din ICML' , JMLR org, - P - Levy O , Goldberg Y Înglobări de cuvinte bazate pe dependențe // Proc nd ACL, Voi : Lucrări scurte, - P - Levy O , Goldberg Y Neural Word Embedding as Implicit Matrix Factorization // Advances in Neural Information Processing Systems / Curran Associates, Inc , - P - Literatură Li Y Deep Reinforcement Learning: An Overview // arXiv, http://arxiv org/abs/ Liang M , Ni X Recurrent Convolutional Neural Network for Object Recognition // IEEE Conference on Computer Vision and Pattern Recognition (CVPR), iunie - P - Lin C -Y , Och FJ Evaluarea automată a calității traducerii automate folosind cea mai lungă secvență comună și statistici Skip-bigram // Proc Al -lea ACL, Stroudsburg, PA, SUA: ACL, LinJ Măsuri de divergență bazate pe entropia Shannon // IEEE Transactions on Information Theory, ianuarie , voi , nr - P - Lin M , Chen Q , Yan S Network In Network // arXiv, http://arxiv org/abs/ Linnainmaa S , The Representation of the Cumulative Rounding Error of an Algorithm as A Taylor Expansion of the Local Rounding Errors, Teza de master, Univ Helsinki, Liu DC, NocedalJ Despre metoda BFGS cu memorie limitată pentru optimizarea la scară largă // Programare matematică, , voi , nr - P - Licnat A , Papadimitriou C Sex As an Algorithm: The Theory of Evolution Under the Lens of Computation // Communications of the ACM, , voi , nr - P - Lomo T Potențiarea de lungă durată a transmiterii sinaptice în zona dentată a iepurelui anesteziat în urma stimulării căii perforante // Philosophical Transactions of the Royal Society B: Biological Sciences, , voi , nr - P - Lotter W , Kreiman G , CoxD Învățare nesupravegheată a structurii vizuale folosind rețele generative predictive //arXiv, http://arxiv org/abs/ Lowe DG Recunoașterea obiectelor din caracteristicile invariante la scară locală // Proc A -a Conferință Internațională IEEE despre Computer Vision / voi , - P - voi Lowe DG Distinctive Image Features from Scale-Invariant Keypoints // Internațional Journal of Computer Vision, , voi , nr - P - LSTM: A Search Space Odyssey / K Greff et al // arXiv, http://arxiv org/abs/ LSUN: Construcția unui set de date de imagini la scară largă folosind Deep Learning with Humans in the Loop / F Yu și colab // arXiv, http://arxiv org/abs/ Luo Q , Xu W Learning Word Vectors Efficiently Using Shared Representations and Document Representations, Proc Twenty-Ninth AAAI Conference on Artificial Intelligence, AAAI Press, - P - Luo Q , Xu W , GuoJ Un studiu asupra supraajustării și stabilității modelului CBOW // Proc th Internațional Workshop on Web-Scale Knowledge Representation, New York, NY, SUA: ACM, -P - LuongM -T , SocherR , Manning CD Better Word Representations with Recursive Neural Networks for Morphology // CoNLL, Sofia, Bulgaria: Luong T , Pham H , Manning CD Abordări eficiente ale traducerii automate neuronale bazate pe atenție // Proc EMNLP, Lisabona, Portugalia: ACL, septembrie - P - Maas AL, Hannun AY, NgA Y Neliniaritățile redresoarelor îmbunătățesc modelele acustice ale rețelei neuronale // Proc ICML, , voi , nr Teoria informației MacKay DJ, algoritmi de inferență și de învățare, Cambridge University Press, MacKay DJC A Practicai Bayesian Framework for Backpropagation Networks // Neural Computation, , voi , nr - P - Makhzani A , Frey BJ PixelGAN Autoencoders // arXiv, http://arxiv org/abs/ Literatură Efectuarea rețelelor de credință profundă pentru recunoașterea continuă a vorbirii pentru vocabularul mare / TN Sainath și colab // ASRU, IEEE, - P - Bărbatul este pentru un programator de calculator așa cum este femeia pentru femeia de casă? Debiasing Word Embeddings / T Bolukbasi și colab // arXiv, http://arxiv org/abs/ Marcelja S Mathematical Description of the Responses of Simple Cortical Cells // Journal of the Optical Society of America, , voi , nr - P - Mărie B , Max A Multi-Pass Decoding With Complex Feature Guidance for Statistical Machine Translation // Proc ACL și IJCNLP, Voi : Short Papers, Beijing, China: ACL, iulie - P - Markov Topic Models / C Wang et al //Journal of Machine Learning Research, , voi - P - Markram H , Gerstner W , Sjostrom PJ A History of Spike-Timing-Dependent Plasticity // Frontiers in Synaptic Neuroscience, , voi , nr Markram H , Gerstner W , Sjostrom PJ Spike Timing-Dependent Plasticity: A Hebbian Learning Rule // Front Synaptic Neuroscience, , voi , nr Masca R-CNN / K Not et al // arXiv, http://arxiv org/abs/ Massively Parallel Methods for Deep Reinforcement Learning / A Nair et al // arXiv, http://arxiv org/abs/ Stăpânirea jocului Go cu Deep Neural Networks și Tree Search / D Silver și colab // Nature, , voi , nr - P - McCulloch W , Pitts W A Logical Calculus of the Ideas Immanent in Nervous Activity // Bulletin of Mathematical Biophysics, , voi - P - Mescheder L , Nowozin S , Geiger A Adversarial Variational Bayes: Unifying Variational Autoencoders and Generative Adversarial Networks // Proc th ICML / voi din Proceedings of Machine Learning Research, PMLR, - P - Metzen JH Variational Autoencoder in TensorFlow, https://jmetzen github io/ - - /vae html Michie D , Chambers RA BOXES: An Experiment in Adaptive Control // Machine Intel-ligence / Edinburgh, UK: Oliver and Boyd, Mikolov T Modele statistice de limbaj bazate pe rețele neuronale: Ph D teză / doctorat teză de doctorat, Universitatea de Tehnologie din Brno, Mikolov T , Joulin A , Baroni M O foaie de parcurs către Machine Intelligence // arXiv, http: //arxiv org/abs/ Minsky M Neural Nets and the Brain Model Problem: Ph D teză / Universitatea Princeton, Minsky M Steps Toward Artificial Intelligence // Computers and Thought / McGraw-Hill, New York, - P - Minsky M Matter, Mind and Models // Congresul IFIP, Spartan Books, - P - http://dspace mit edu/handle/ / Minsky M , Papert S Perceptrons, Cambridge, MA: MIT Press, Mirza M , Osindero S Condițional Generative Adversarial Nets // arXiv, http:// arxiv org/abs/ Mitchell J , Lapata M Composition in Distributional Models of Semantics // Cognitive Science, , voi , nr - P - Mitchell TM Machine Learning, edition, New York, NY, SUA: McGraw-Hill, Inc , Mnih A , Hinton GE A Scalable Hierarchical Distributed Language Model // Advances in neuronal information processing systems, - P - Mnih A , Kavukcuoglu K Learning Word Embeddings Efficiently with Noise-Contrastive Estimation // Advances in Neural Information Processing Systems / Curran Associates, Inc , -P - Literatură MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications / AG Howard et al // arXiv, http://arxiv org/abs/ Modeling Interestingness with Deep Neural Networks / J Gao et al // EMNLP, Modelarea activităților utilizatorilor pe web utilizând vectorul paragrafului / Y Tagami și colab //Proc th WWW, New York, NY, SUA: ACM, - P - Molchanov D , Ashukha A , Vetrov D Variational Dropout Sparifies Deep Neural Networks // Proc th ICML / voi din Proceedings of Machine Learning Research, PMLR, - P - Moli H , Tomasello M Infant cognition // Current Biology, , voi , nr - P R -R Mordvintsev A , Olah C, Tyka M Inceptionism: Going Deeper into Neural Networks, http://googleresearch blogspot com/ / /inceptionism-going-deeper-into-neural html Mozer M C A Focused Backpropagation Algorithm for Temporal Pattern Recognition // Complex Systems, , voi - P - Mozer MC Neural Net Architectures for Temporal Sequence Processing, Addison-Wesley, - P - MullerM Recuperarea informațiilor pentru muzică și mișcare, Secaucus, NJ, SUA: Springer-Verlag New York, Inc , Muller V C, Bostrom N Future Progress in Artificial Intelligence: A Survey of Expert Opinion // Fundamental Issues of Artificial Intelligence / Ed de VC Muller, Cham: Springer International Publishing, - P - Murphy K P Machine Learning: a Probabilistic Perspective, Cambridge University Press, Nair V , Hinton GE Rectified Linear Units Improve Restricted Boltzmann Machines // Proc ICML, - P - Neal RM Bayesian Learning for Neural Networks, Secaucus, NJ, SUA: Springer-Verlag New York, Inc , Neelakantan A , Roth B , McCallum A Compositional Vector Space Models for Knowledge Base Completion, Proc ACL și IJCNLP, Voi : Long Papers, Beijing, China: ACL, - P - Neil D , Pfeiffer M , Lin S Phased LSTM: Accelerating Recurrent Network Training for Long or Event-based Sequences, Proc Conferința a -a privind sistemele de procesare a informațiilor neuronale (NIPS )/ Nesterov Y Introductory Lectures on Convex Optimization: A Basic Course, Springer Publishing Company, Incorporated, Arhitecturi neuronale pentru recunoașterea entităților numite / G Lample și colab // arXiv, http: //arxiv org/abs/ Rețele neuronale: trucuri ale comerțului / Ed de GB Orr, K -R Mueller și Springer, , voi oîLecture Notes in Computer Science Rețele neuronale: trucuri ale meseriei: Ediția a II-a / Ed de G Montavon et al , Springer, , voi de Note de curs în Informatică Neural Probabilistic Language Models / Y Bengio et al // Innovations in Machine Learning / Springer, - P - A Neural Probabilistic Structured-Prediction Model for Transition-Based Dependency Parsing / H Zhou et al //Proc ACL și IJCNLP, Voi : Long Papers, Beijing, China: ACL, - P - Newell A , Show J C, Simon HA Report on a General Problem-Solving Program, Proc Internațional Conference on Information Processing, - P - Nilsson D -E , PelgerS O estimare pesimistă a timpului necesar pentru ca un ochi să evolueze // Proc Royal Society of London B: Biological Sciences, , voi , nr - P - Literatură Auto-encodere variaționale nonparametrice pentru învățarea reprezentării ierarhice / P Goyal și colab // arXiv, http://arxiv org/abs/ Nossenson N , Messer H Modeling Neuron Firing Pattern Using a Two State Markov Chain // IEEE Sensor Array and Multichannel Signal Processing Workshop, - P - A Novei Connectionist System for Unconstrained Handwriting Recognition / A Graves et al // IEEE Transactions on Pattern Analysis and Machine Intelligence, , voi , nr - P - Nowozin S , Cseke B , Tomioka R f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization // Advances in Neural Information Processing Systems / Curran Associates, Inc , - P - Despre numărul de regiuni liniare ale rețelelor neuronale profunde / G Montufar și colab //Proc thNIPS, Cambridge, MA, SUA: MIT Press, - P - Despre proprietățile traducerii automate neuronale: abordări encoder-decodor / K Cho și colab // arXiv, http://arxiv org/abs/ Despre Unifying Deep Generative Models / Z Hu et al // arXiv, http://arxiv org/abs/ Despre utilizarea vocabularului țintă foarte mare pentru traducerea automată neuronală / S Jean și colab //Proc ACL și IJCNLP, Voi : Long Papers, Beijing, China: ACL, - P - One-Shot Learning of Generative Speech Concepts / V M Lake et al // CogSci, cognitivesciencesociety org, Sugarii de un an folosesc reprezentările teleologice ale acțiunilor în mod productiv / G Csi-bra și colab // Cognitive Science, , voi , nr - P - OpenWorm: an Open-Science Approach to Modeling Caenorhabditis Elegans / B Szigeti et al // Frontiers of Computational Neuroscience, , voi Opper M , Archambeau C The Variational Gaussian Approximation Revisited // Neural Computation, , voi , nr - P - Depășirea blestemului lungimii propoziției pentru traducerea automată neuronală folosind segmentarea automată / J Pouget-Abadie și colab // arXiv, http://arxiv org/abs/ OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks / P Sermanet et al // arXiv, http://arxiv org/abs/ Pantei P Inducing Ontological Co-occurrence Vectors, Proc rd ACL, Stroudsburg, PA, SUA: ACL, - P - Papemo D , Pham NT, Baroni M A Practicai and Linguistically-Motivated Approach to Compositional Distributional Semantics, Proc nd ACL, Voi : Long Papers, Bălti-more, Maryland: ACL, - P - Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Voi : Fundamente / Ed de DE Rumelhart et al , Cambridge, MA, SUA: MIT Press, Model de procesare distribuită paralelă cu interconexiuni locale invariante în spațiu și arhitectura sa optică / W Zhang și colab // Optica aplicată, , voi , nr Pascanu R , Mikolov T , Bengio Y On the Difficulty of Training Recurrent Neural Networks, Proc -a ICML, - P - Path Integral Guided Policy Search / Y Chebotar et al // arXiv, http://arxiv org/abs/ PathNet: Evolution Channels Gradient Descent in Super Neural Networks / C Fernando et al // arXiv, http://arxiv org/abs/ PanoulM S , SchulzH , Behnke S Rețelele neuronale convoluționale recurente pentru segmentarea de clasă obiect a video RGB-D // IJCNN, IEEE, - P - PearlJ Raționamentul probabilistic în sistemele inteligente: rețele de inferență plauzibilă, NY etc : Morgan Kaufmann, Literatură Pennington J , Socher R , Manning C Glove: Global Vectors for Word Representation, Proc EMNLP, Doha, Qatar: ACL, - P - Percepția codului vorbirii / A M Liberman și colab // Revista de psihologie, , voi , nr -P - Peters J , Schaal S Reinforcement Learning of Motor Skills with Policy Gradients // Neural Networks, , voi , nr - P - Recunoașterea fonemelor utilizând rețele neuronale cu întârziere în timp / A Waibel și colab // IEEE Transactions on Acoustics, Speech, and Signal Processing, martie , voi , nr - P - Super-rezoluție foto-realistă cu o singură imagine folosind o rețea adversară generativă / C Ledig și colab // arXiv, http://arxiv org/abs/ Proteza retiniană fotovoltaică: fabricarea implantului și performanța / L Wang și colab // Journal of Neural Engineering, , voi , nr - str Pilgrim M Dive Into Python , Berkeley, CA, SUA: Apress, Pinheiro PHO, Collobert R Recurrent Convolutional Neural Networks for Scene Pars-ing // arXiv, http://arxiv org/abs/ Pinheiro PHO, Collobert R Recurrente Convolutional Neural Networks for Scene Label-ing, Proc ICML, - P - Playing Atari With Deep Reinforcement Learning / V Mnih et al // NIPS Deep Learning Workshop / Metode de gradient de politică pentru învățare prin consolidare cu aproximare a funcției / RS Sutton și colab //Proc thNIPS, Cambridge, MA, SUA: MIT Press, - P - Pollack JB, Blair AD De ce a funcționat TD-Gammon? // NIPS, MIT Press, -P - Potapenko A , Vorontsov K Robust pLSA Performs Better Than LDA // Proc th ECIR / voi oîLecture Notes in Computer Science, Springer, - P - Prokhorov D A Convolutional Learning System for Object Classification in -D LIDAR Data // IEEE Transactions on Neural Networks, , voi , nr - P - McCarthy J , Minsky M et al O propunere pentru proiectul de cercetare de vară de la Dartmouth privind inteligența artificială, http://www-formal stanford edu/jmc/history/dartmouth/dartmouth html Radford A , MetzL , Chintala S Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks // arXiv, http://arxiv org/abs/ Raiko T , Valpola H , LeCun Y Deep Learning Made Easer by Linear Transformations in Perceptrons // AISTATS / voi din Procesele JMLR, JMLR org, - P - Raina R , Madhavan A , Ng A Învățare profundă nesupravegheată la scară largă folosind procesoare grafice, Proc ICML, - P - Rardin RL Optimization in Operations Research, Pearson, RC-NET: A General Framework for Incorporating Knowledge into Word Representations / C Xu et al //Proc rd ACM Internațional Conference on Conference on Information and Knowledge Management, New York, NY, SUA: ACM, - P - Raționare cu rețele de tensori neuronali pentru completarea bazei de cunoștințe / R Socher și colab // Advances in Neural Information Processing Systems (NIPS), Recent Advances in Convolutional Neural Networks / J Gu et al // arXiv, http: //arxiv org/abs/ Normalizarea loturilor recurente / T Cooijmans et al // arXiv, http://arxiv org/abs/ Rețele de autostrăzi recurente / JG Zilly și colab //Proc th ICML / voi din Proceedings of Machine Learning Research, PMLR, - P - Modele recurente ale atenției vizuale / V Mnih și colab // Advances in Neural Information Processing Systems / Curran Associates, Inc , - P - Literatură Recurrent Neural Network Based Language Model / T Mikolov et al // INTERSPEECH, , voi - P Modele recursive profunde pentru compoziționalitatea semantică peste un banc de arbori de sentimente / R Socher și colab //Proc EMNLP / voi , - P Redmon J , Farhadi A YOLO ()()()' Better, Faster, Stronger //arXiv, http://arxiv org/abs/ Rehurek R A Path to Unsupervised Learning through Adversarial Networks, https: //rare-technologies com/deep-learning-with-word vec-and-gensim/ Rehurek R , Sojka P Software Framework for Topic Modeling with Large Corpora // Proc Atelier de lucru LREC privind noile provocări pentru cadrele NLP, Valletta, Malta: ELRA, - pp - Rensink RA The Dynamic Representation of Scenes // Visual Cognition, , voi , nr - -P - Rethinking the Inception Architecture for Computer Vision / C Szegedy et al // arXiv, http://arxiv org/abs/ Retrofitting Word Vectors to Semantic Lexicons / M Faruqui et al //Proc NAACL-HLT, Denver, Colorado: ACL, mai-iunie - P - Învățare robustă de întărire adversară / L Pinto și colab //Proc th ICML / voi din Proceedings of Machine Learning Research, PMLR, - P - Rohas R Neural Networks - A Systematic Introduction, Springer-Verlag, Berlin, New-York, Rohde DLT, Gonnerman LM, Plaut DC An Improved Model of Semantic Similarity Based on Lexical Co-Occurence // Communications of the ACM, , voi - P - Rongx Explicarea învățării parametrilor word vec // arXiv, http://arxiv org/abs/ Ronneberger O , Fischer P , Brox T U-Net: Convolutional Networks for Biomedical Image Segmentation //arXiv, http://arxiv org/abs/ Rosenblatt F The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain // Psychological Review, , voi , nr - P - Rosenblatt F Principles of Neurodynamics, Spartan, New York, Rubenstein H, GoodenoughJ B Corelate contextuale de sinonimie // Comunicări ale ACM, , voi , nr - P - Ruder S An Overview of Gradient Descent Optimization Algorithms // arXiv, http: //arxiv org/abs/ Rumelhart DE, Hinton GE, Williams RJ Learning Internai Representations by Error Propagation // Parallel Distributed Processing Voi : Foundations/Cambridge, MA, SUA: MIT Press, Rumelhart DE, Hinton GE, Williams RJ Learning Representations by Back-propagating Errors // Neurocomputing: Foundations of Research / Cambridge, MA, USA: MIT Press, - P - Saatchi Y , Wilson A G Bayesian GAN //arXiv, http://arxiv org/abs/ Sadrzadeh M , Grefenstette E A Compositional Distributional Semantics, Two Concrete Constructions, and Some Experimental Evaluations, Proc th Internațional Conference on Quantum Interaction, Berlin, Heidelberg: Springer-Verlag, - P - Sahlgren M The Distributional Hypothesis // Italian Journal of Linguistics, , voi , nr l -P - Salakhutdinoc R Learning Deep Boltzmann Machines using Adaptive MCMC // Proc ICML, - P - Salakhutdinoc R Learning Deep Generative Models // Annual Review of Statistics and Its Application, , voi , nr - P - Literatură Salakhutdinov R , Hinton GE Deep Boltzmann Machines // Proc A XII-a Conferință Internațională de Inteligență Artificială și Statistică, AISTATS , Clearwater Beach, Florida, SUA, - aprilie , - P - Salakhutdinov R , Hinton GE A Better Way to Pretrain Deep Boltzmann Machines // Advances in Neural Information Processing Systems , - P - Salakhutdinov R , Larochelle H Efficient Learning of Deep Boltzmann Machines // Proc th International Conference on Artificial Intelligence and Statistics (AISTATS), - P - Sallans B , Hinton GE Reinforcement Learning with Factored States and Actions // Journal of Machine Learning Research, , voi - P - Savage L The Foundations of Statistics, New York: Wiley, Scherer D , Muller A , Behnke S Evaluation of Pooling Operations in Convolutional Archi-tectures for Object Recognition // Proc th International Conference on Artificial Neural Networks: Part III, Berlin, Heidelberg: Springer-Verlag, - P - Schmidhuber J Learning Complex, Extended Sequences Using the Principle of History Compression//Neural Computation, , voi , nr - P - SchmidhuberJ Artă cu complexitate redusă // Leonardo, , voi , nr - P - Schmidhuber J Simple Algorithmic Principles of Discovery, Subjective Beauty, Selective Attention, Curiosity & Creativity // Discovery Science: lOth Internațional Conference, DS Sendai, Japan, October - , Proceedings / Ed de V Corruble et al , Berlin, Heidelberg: Springer Berlin Heidelberg, - P - Schmidhuber J Deep Learning in Neural Networks: An Overview // Neural Networks, , voi -P - Schwenk H Continuous Space Language Models // Comput Speech Lang , , voi , nr -P - Searle JR Minds, Brains and Programs // Behavioral and Brain Sciences, , voi , nr - P - Sedol L Analiza jocului al meciului AlphaGo, martie , http://news donga com/Issue/List/ / / / / , traducere în engleză, se/ ://badukinkorea tumblr com/post/ /lee-sedols-review-on-the-fifth-match-with-alphago Sedol L Interviu, ianuarie , http://news donga eom/ /all/ / / , tradus parțial în rusă, vezi http://gofederation ru/board/ viewtopic php?f= &t= Segee B Methods in Neuronal Modeling: from lons to Networks, Ediția a II-a // Computing in Science Engineering, , voi , nr - P - Seide F , Li G , Yu D Conversațional Speech Transcription Using Context-Dependent Deep Neural Networks // Interspeech , Internațional Speech Communication Association, Self-Normalizing Neural Networks / G Klambauer et al // arXiv, http://arxiv org/abs/ Compoziționalitate semantică prin spații matrice-vectorale recursive / R Socher și colab //Proc Joint EMNLP and Computational Natural Language Learning, Stroudsburg, PA, SUA: ACL, - P - Analiza obiectelor semantice cu Graph LSTM / X Liang et al //Proc ECCV , Partea I / Ed de B Leibe et al , Cham: Springer International Publishing, - P - Semantic Smooth Knowledge Graph Embedding / S Guo et al //Proc ACL și IJCNLP, Voi : Long Papers, Beijing, China: ACL, - P - Semeval- Task : Evaluation of Compositional Distributional Semantic Models on Full Sentences through Semantic Relatedness and Textual Entailment / M Marelli et al // SemEval- , Literatură Învățare semi-supravegheată cu rețele de scară / A Rasmus și colab //Proc th NIPS, Cambridge, MA, SUA: MIT Press, - P - Sennrich R , Haddow B , Birch A Edinburgh Neural Machine Translation Systems for WMT //arXiv, http://arxiv org/abs/ Sex, Mixability, and Modularity / A Livnat et al //Proc Academia Națională de Științe, , voi , nr - P - Shannon C This Mouse Is Smarter Than You Are // Popular Science, - P - Show ZA Learn Python the Hard Way: A Very Simply Introduction to the Terrifyingly Beautiful World of Computers and Code, ediția a treia, Addison-Wesley Professional, Shift-Invariant Pattern Recognition Neural Network and Its Optical Architecture / W Zhang et al // Proceedings of Annual Conference of the Japan Society of Applied Physics, Shimodaira H Improving Predictive Inference under Covariate Shift by Weighting the Log-Likelihood Function // Journal of Statistical Planning and Inference, , voi , nr - P - Shortliffe E EL, Buchanan BG A Model of Inexact Reasoning in Medicine, Mathematical Biosciences, , voi - P - Show and Teii: A Neural Image Caption Generator / O Vinyals et al // arXiv, http: //arxiv org/abs/ Show, Attend and Teii: Neural Image Caption Generation with Visual Attention / K Xu et al // arXiv, , voi , nr - P http://arxiv org/abs/ Sjostrom J , Gerstner W Spike-Timing Dependent Plasticity // Scholarpedia, , voi , nr - P Skip-Thought Vectors / R Kiros et al // Advances in Neural Information Processing Systems / Curran Associates, Inc , - P - Smolensky P Procesarea informațiilor în sistemele dinamice: Fundamentele teoriei armoniei // Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Voi / Cambridge, MA, SUA: MIT Press, - P - Snapshot Ensembles: Train , Get M for Free / G Huang et al // arXiv, http://arxiv org/abs/ Soricut R , Och F Unsupervised Morphology Induction Using Word Embeddings, Proc Conferința din a capitolului nord-american al Asociației pentru Lingvistică Computațională: Tehnologii ale limbajului uman, Denver, Colorado: ACL, - P - Spelke ES, Gutheil G , Van de Walle G The Development of Object Perception // Visual Cognition: An Invitation to Cognitive Science / Spelke ES, KinzlerK D Core Knowledge // Developmental Science, , voi , nr - P - SqueezeNet: Precizie la nivel AlexNet cu x mai puțini parametri și < MB dimensiunea modelului / FN landola și colab // arXiv, http://arxiv org/abs/ Srwastava N , Salakhutdinov R Multimodal Learning with Deep Boltzmann Machines // Journal of Machine Learning Research, , voi , nr - P - Srwastava RK, Greff K , Schmidhuber J Highway Networks // arXiv, http://arxiv org/abs/ Srivastava RK, Greff K , Schmidhuberf Antrenarea rețelelor foarte profunde // Proc th NIPS, Cambridge, MA, SUA: MIT Press, - P - StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks / H Zhang et al // arXiv, http://arxiv org/abs/ Caracteristici de traducere automată statistică cu rețele tensoare multitask / H Setiawan și colab //Proc ACL și IJCNLP, Voi : Long Papers, Beijing, China: ACL, -P - Literatură Stenetorp R Analiza dependenței bazată pe tranziție folosind rețele neuronale recursive // Atelier de învățare profundă la NIPS , Striving for Simplicity: The All Convolutional Net / JT Springenberg et al // arXiv, http://arxiv org/abs/ Training Structured for Neural Network Transition-Based Parsing / D Weiss et al //Proc ACL și IJCNLP, Voi : Long Papers, Beijing, China: ACL, - P - A Study of Translation Edit Rate with Targeted Human Annotation / M Snover et al //Proc Asociația pentru traducerea automată în America, - P - Sugiyama M , Krauledat M , Muller K -R Covariate Shift Adaptation by Importance Weighted Cross Validation // Journal of Machine Learning Research, , voi - P - A Survey of Monte Carlo Tree Search Methods / C B Browne et al // IEEE Transactions on Computațional Intelligence and AI in Games, martie , voi , nr - P - Sutskeverl , Tieleman T On the Convergence Properties of Contrastive Divergence // AISTATS / voi din Procesele JMLR, JMLR org, - P - Sutskever I , Vinyals O , Le QV Sequence to Sequence Learning with Neural Networks // arXiv, http://arxiv org/abs/ Sutton C , McCallumA An Introduction to Condițional Random Fields for Relațional Learning, Sutton RS, BartoA G Învățare prin consolidare: o introducere, Cambridge, MA, Traducere simultană bazată pe sintaxă prin predicția constituenților sintactici nevăzuți/Y Odaetal //Proc -a ACL și-a -a IJCNLP, Voi : LongPapers, Beijing, China: ACL, - P - Navigare vizuală orientată către țintă în scenele de interior folosind Deep Reinforcement Learning / Y Zhu și colab // arXiv, http://arxiv org/abs/ A Taxonomy of Deep Convolutional Neural Nets for Computer Vision / S Srinivas et al // arXiv, http://arxiv org/abs/ Abadi M , AgarwalA et al TensorFlow: Învățare automată la scară largă pe sisteme eterogene, , Softwareavailablefromtensorflow org http://tensorflow org/ Tesauro G Neurogammon Wins Computer Olympiad//Neural Computation, , voi , nr -P - Tesauro G Practicai Issues in Temporal Difference Learning // Machine Learning, , voi - P - Tesauro G Temporal Difference Learning and TD-Gammon // Communications of the ACM, , voi , nr - P - Thaler L , Amott SR, Goodale MA Human Echolocation I // Journal of Vision, , voi , nr - P Theano: a CPU and GPU Math Expression Compiler / J Bergstra et al //Proc Python for Scientific Computing Conference (SciPy), , Prezentare orală Bastien F , Lamblin P şi colab Theano: Funcții noi și îmbunătățiri ale vitezei, Învățare profundă și Învățare nesupravegheată a funcțiilor Atelierul NIPS , Thomdike EL Animal Intelligence: Un studiu experimental al proceselor asociative la animale Psychological Review Monographies, New York: Macmillan, TiedemannJ Știri de la OPUS - O colecție de corpuri paralele multilingve cu instrumente și interfețe // Recent Advances in Natural Language Processing (voi V) / Amsterdam-dam/Philadelphia: John Benjamins, - P - Tieleman T, Hinton G Lectura - RMSProp: Divide the Gradient by a Running Average of its Recent Magnitude, Coursera: Neural Networks for Machine Learning, https: //www coursera org/learn/neural-networks Literatură TinyFlow: Construiește-ți propriul sistem DL în linii de K, https://github com/tqchen/tinyflow, Tishby N , Levin E , Solia S Consistent Inference of Probabilities in Layered Networks: Predictions and Generalizations // IJCNN Internațional Joint Conference on Neural Networks/voi II, IEEE, - P - Titov L, HendersonJ Un model de variabilă latentă pentru analizarea dependenței generative // Proc A XI-a Conferință Internațională pentru Tehnologii de Analiză, Stroudsburg, PA, SUA: ACL, -P - Towards a Virtual C Elegans: A Framework for Simulation and Visualization of the Neuromuscular System in a D Physical Environment / A Palyanov et al // In silico Biology, , voi , nr , - P - Lowe R , Noseworthy M și colab Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses, Trimis la ICLR , https://openreview net/forum?id=HJ PIaseg Towards Biologically Plausible Deep Learning / Y Bengio et al // arXiv, http://arxiv org/abs/ Analiza dependenței bazată pe tranziție utilizând două rețele neuronale recursive eterogene cu porți / X Chen și colab //Proc EMNLP , Lisabona, Portugalia: ACL, - P - Analiza dependenței bazată pe tranziție cu memorie pe termen lung pe termen scurt / C Dyer și colab //Proc ACL și IJCNLP, Voi : Long Papers, Beijing, China: ACL, - P - Tsitsiklis JN, Van Roy B An Analysis of Temporal-Difference Learning with Function Approximation // IEEE Transactions on Automatic Control, , voi , nr - P - Turing A M Intelligent Machinery, A Heretical Theory, prelegere susținută la Oxford, Turing A M Computing Machinery and Intelligence, , Una dintre cele mai influente lucrări din istoria științelor cognitive: http://cogsci umn edu/millennium/final html Ungerleider LG, Mishkin M Două sisteme vizuale corticale // Analiza comportamentului vizual / Ed de DJ Ingle şi colab , - P - Unrolled Generative Adversarial Networks/L Metzet al //arXiv, http://arxiv org/abs/ An Updated Set of Basic Linear Algebra Subprograms (BLAS) / L Blackford et al // ACM Transactions on Mathematical Software, , voi , nr - P - van den OordA , Dieleman S , Zen H WaveNet: A Generative Model for Raw Audio, https://deepmind com/blog/wavenet-generative-model-raw-audio/ van den Oord A , Kalchbrenner N , Kavukcuoglu K Pixel Recurrent Neural Networks // arXiv, http://arxiv org/abs/ Variational Approaches for Auto-Encoding Generative Adversarial Networks / M Roșea et al // arXiv, http://arxiv org/abs/ Variational Lossy Autoencoder / X Chen et al // arXiv, http://arxiv org/abs/ Vinyals O , Le QV A Neural Conversational Model // ICML Deep Learning Workshop, arXiv: , Viola PA, Jones MJ Detectarea rapidă a obiectelor folosind o cascadă amplificată de caracteristici simple, Proc CVPR , - P - Vorontsov K Additive Regularization for Topic Models of Text Collections // Doklady Mathematics, , voi , nr - P - vos Savant M Ask Marilyn // Parade, , nr Algoritmul Wake-Sleep pentru rețele neuronale nesupravegheate / GE Hinton și colab // Science, , voi - P - Literatură Wald A Statistical Decision Functions // The Annals of Mathematical Statistics, , voi , nr - P - Wang C , Blei DM, Heckerman D Continuous Time Dynamic Topic Models, Proc Conferința a -a privind incertitudinea în inteligența artificială, WangX , McCallumA Subiecte de-a lungul timpului: un model non-Markov în timp continuu al tendințelor topice // Proc th ACM SIGKDD Internațional Conference on Knowledge Discovery and Data Mining, New York, NY, USA: ACM, - P - Watkins CJ C EL, Dayan P Q-learning // Machine Learning, - P - WaveNet: A Generative Model for Raw Audio / A van den Oord et al // arXiv, http: //arxiv org/abs/ Rețele de memorie slab supravegheate / S Sukhbaatar și colab // arXiv, http:// arxiv org/abs/ Webvision: The Organization of the Retina and Visual System, http:// webvision med utah edu/book/ Weizenbaum J ELIZA - A Computer Program for the Study of Natural Language Communication Between Man and Machine // Communications of the ACM, , voi , nr - P - Werbos PJ Applications of Advances in Nonlinear Sensitivity Analysis, Proc Conferința a X-a IFIP, - , NYC, - P - Weston J , Chopra S , Bordes A Memory networks // arXiv, http://arxiv org/abs/ Weston J , Rație F , Collobert R Deep Learning via Semi-supervised Embedding // Proc th ICML, New York, NY, SUA: ACM, - P - De ce pre-formarea nesupravegheată ajută la învățarea profundă? / D Erhan și colab //Journal of Machine Learning Research, , voi - P - WienerN Cybernetics, a doua ediție: sau controlul și comunicarea în animal și mașină, The MIT Press, Wiesel D EL, Hubel TN Receptive Fields of Single Neurones in the Cat's Striate Cortex // Journal of Physiology, , voi - P - Wiesler S , Ney H A Convergence Analysis of Log-Linear Training // NIPS, - P - Williams RJ Algoritmi simpli de urmărire a gradientului statistic pentru învățarea prin consolidare conecționistă // Învățare automată, , voi , nr - - P - Wohler C , Anlauf JK An Adaptable Time-Delay Neural-Network Algorithm for Image Sequence Analysis // IEEE Transactions on Neural Networks, noiembrie , voi , nr - P - Xu R , Wunsch D Clustering, Wiley-IEEE Press, YangX , Kwitt R , Niethammer M Fast Predictive Image Registration // arXiv, http://arxiv org/abs/ Yao K , Zweig G , Peng B Attention with Intention for a Neural Network Conversation Model //arXiv, http://arxiv org/abs/ You Only Look Once: Unified, Real-Time Object Detection / J Redmon et al // arXiv, http://arxiv org/abs/ Yu M , Dredze M Îmbunătățirea înglobărilor lexicale cu cunoștințe semantice // Proc nd ACL, Voi , - P - Yudkowsky E Artificial Intelligence as a Positive and Negative Factor in Global Risk // Global Catastrophic Risks, , voi - P Yudkowsky E Friendly Artificial Intelligence // Singularity Hypotheses: A Scientific and Philosophical Assessment / Berlin: Springer, Yudkowsky E Harry Potter și metodele raționalității, http://www hpmor com/, Literatură Yudkowsky E Rationality: From AI to Zombies, Berkeley, CA: Machine Intelligence Research Institute, http://intelligence org/rationality-ai-zombies/ Zaremba W , Sutskeverl Reinforcement Learning Neural Turing Machines // arXiv, http://arxiv org/abs/ Zaremba W , Sutskever I , Vinyals O Recurrent Neural Network Regularization // arXiv, http://arxiv org/abs/ Zeiler MD ADADELTA: An Adaptive Learning Rate Method // arXiv, http://arxiv org/abs/ Zeiler MD, Fergus R Visualizing and Understanding Convolutional Networks // arXiv, http://arxiv org/abs/ ZhangX , LeCun Y Text Understanding from Scratch // arXiv, http://arxiv org/abs/ Zhang X , Zhao J , LeCun Y Character-level Convolutional Networks for Text Classification // Advances in Neural Information Processing Systems / Curran Associates, Inc , - P - IvakhnenkoA G , Lapa V G Dispozitive predictive cibernetice Kiev, Nauk, Dumka, Kolmogorov A N Despre reprezentarea funcțiilor continue ale mai multor variabile ca suprapuneri de funcții continue ale unei variabile și adaos // Rapoarte ale Academiei de Științe V , nr - S - Kolmogorov A N Automatele și viața // Posibil și imposibil în cibernetică / - P - Luria A R Creierul și procesele mentale În vol M , Editura APN RSFSR, Luria A R Fundamentele neuropsihologiei M , Malykh V Învățare prin întărire: de la Pavlov la aparatele de slot https: //habrahabr ru/post/ / A L Tulupiev, S I Nikolenko și A V Sirotkin, Bayesian Networks: A Probabilistic Approach Sankt Petersburg: Nauka, p Feller V Introducere în teoria probabilității și aplicațiile acesteia M , Mir, Shiryaev A Probabilitate M , Nauka, Shiryaev A , Erlikh I , Yaskov P Probabilitatea în teoreme și probleme (cu dovezi și soluții) M , MTsNMO, S Nikolenko, A Kadurin, E Arkhangelskaya Invatare profunda Manager editorial Manager de proiect Redactor principal Editor literar Editor de artă Corectori Y Sergienko O Sivcenko N Grinchik E Rafolyuk-Buzovskaya S Zamatevskaya O Andrievici, O Porokhnyavaya Fabricat in Rusia Producător: Piter Press LLC Locația și adresa actuală: , Rusia, Sankt Petersburg, strada Andreevskaya, , litera A, camera N Tel : + Data fabricatiei: Nume: producție de carte Termen de valabilitate nelimitat Scutire de taxe - clasificator de produse integral rusesc OK - , - Cărți tipărite profesionale, tehnice și științifice Semnat pentru publicare la Format x / Conv Și l Tiraj Ordin Tipărită la OJSC "Prima tipografie exemplară" Filiala "Catehov Tipografie" , regiunea Moscova, Cehov, st imprimante, Site: www chpk ru E-mail: marketing@chpk ru Fax: ( ) - - , telefon: ( ) - - EDITURA EDITURA "PITER" oferă literatură profesională, populară și educațională pentru copii Cărțile pot fi comandate în vrac de la birourile noastre RUSIA Sankt Petersburg: stația de metrou Vyborgskaya, pr B Sampsonievsky, a tel /fax: ( ) - - , - - ; e-mail: sales@piter com Moscova: stația de metrou "Elektrozavodskaya", Semenovskaya emb , / , bloc , etajul tel /fax: ( ) - - ; e-mail: sales@msk piter com Voronej: tel : - - ; e-mail: hitsenko@piter com Ekaterinburg: st Toledova, d a; tel /fax: ( ) - - , - - ; e-mail: office@ekat piter com; skype: ekat manager Nijni Novgorod: tel : - - ; e-mail: yashny@yandex ru; skype: yashnyl Rostov-pe-Don: st Ulyanovsk, tel /fax: ( ) - - , - - ; e-mail: peter-ug@rostov piter com Samara: st Molodogvardeyskaya, a, birou tel /fax: ( ) - - , - - ; e-mail: pitvolga@mail ru, pitvolga@samara-ttk ro BIELORUSIA Minsk: st Roza Luxemburg, ; tel /fax: + - - , - - ; e-mail: og@minsk piter com Editura "Peter" invită autorii să coopereze: tel /fax: ( ) - - , ( ) - - ; e-mail: ivanovaa@piter com Informații detaliate aici: http://www piter com/page/avtoru Editura "Piter" invită partenerii comerciali externi sau intermediarii care au acces pe piața externă pentru cooperare: tel /fax: ( ) - - ; e-mail: sales@piter com Comandă cărți pentru universități și biblioteci: tel /fax: ( ) - - , int ; e-mail: uchebnik@piter com Comanda de carte prin posta: dar www piter com; tel : ( ) - - , int ; e-mail: books@piter com Întrebări despre vânzarea cărților electronice: tel : ( ) - - , int ; e-mail: Kuznetsov@piter com CARTE-MAIL PUTEȚI COMANDA CĂRȚI DE LA EDITURA "PITER" ÎN ORICE MOD CONVENIBIL PENTRU DVS : • pe site-ul nostru: www piter com • prin e-mail: books@piter com • la telefon: ( ) - - PUTEȚI ALEGE ORICE METODĂ DE PLATĂ CONVENIENȚĂ PENTRU DVS : Ramburs la livrare cu plata la primire la cel mai apropiat oficiu postal Cu un card bancar În timpul comenzii, veți fi redirecționat către un server securizat al operatorului nostru, unde puteți introduce detaliile de plată Bani electronici Acceptăm Yandex Money, Webmoney și portofel Kiwi pentru plată DESPRE; La orice bancă, prin tipărirea unei chitanțe, care se generează automat după ce plasezi o comandă PUTEȚI ALEGE ORICE METODĂ DE LIVRARE CONVENENTĂ PENTRU DVS : • Coletele sunt trimise prin Poșta Rusă Un sistem bine stabilit ne permite să organizăm livrarea cumpărăturilor dumneavoastră cât mai repede posibil Data plecării achiziției dumneavoastră și data livrării veți fi informate prin e-mail • Puteți aranja livrarea prin curier a comenzii dumneavoastră (mai multe informații găsiți pe site-ul nostru www piter com) • Este posibilă aranjarea livrării unei comenzi prin terminale de colete (adresele terminalelor de colete pot fi găsite pe site-ul nostru www piter com) CÂND PLASEȚI COMANDA, VĂ RUGĂM SĂ INDICĂ: • nume, prenume, patronim, număr de telefon, e-mail; • cod poştal, regiune, raion, localitate, stradă, casă, clădire, apartament; • titlul cărții, autor, numărul de exemplare comandate LIVRARE GRATUITA: • prin curier in Moscova si Sankt Petersburg pentru comenzi de peste de ruble • prin poștă rusă la plata în avans pentru o comandă în valoare de de ruble \ EDITURA CARTEA TA UNICA Vrei să-ți publici cartea? Va fi un cadou ideal pentru parteneri și prieteni, un instrument excelent pentru promovarea mărcii dvs , un cadou pentru evenimente memorabile! Vom putea implementa orice, chiar și cele mai îndrăznețe și complexe, idei și proiecte NOI OFERIM: • publică-ți cartea • publicarea unei cărți pentru utilizare în activități de marketing • cărți ca cadouri corporative • publicitate în cărți • ediţia bibliotecii corporative De ce ne alegeți: Editura "Piter" are peste de ani Experiența Nosh este o garanție a calității înalte Noi oferim: • servicii de procesare și finalizare a textului dumneavoastră • design modern de la profesioniști • nivel ridicat de performanță de imprimare • vânzarea cărții dumneavoastră în toate librăriile din țară Vom asigura promovarea cărții dvs : • publicitate în mass-media de specialitate și puncte de vânzare • recenzii în publicații de carte de top • Suport pe internet pentru o campanie de publicitate Avem propria noastră rețea de distribuție în toată Rusia, precum și în Ucraina și Belarus Colaborăm cu cele mai mari librării Editura "Peter" este un participant regulat la multe conferințe și seminarii, care oferă o oportunitate largă de a vinde cărți Ne vom asigura că cartea dvs este disponibilă în mod constant în magazine și postată în cele mai importante locuri Vom oferi o abordare individuală fiecărui client, design exclusivist, orice tiraj În plus, vă sugerăm să lansați o carte electronică Îl vom plasa în cele mai mari magazine online Cartea va fi produsă în format ePub sau PDF - cele mai populare și de încredere formate de astăzi Contactați-ne chiar acum: St Petersburg - Anno Titova, ( ) - - , titovo@piter com Moscova - Sergey Klebanov, ( ) - - , kiebanov@piter com 